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译者 

的话 


丁 h 量史学 （Quantitative History ， 也称为定董史学 
或数童 史学〉 并不是一个严谨的概念> 从一般的意 
义上讲，它是对所有有意识地、有系统地采用数学方 
法和统计学方法从事历史研究工作的总称，其主要 
特征为定量分析，以区别传统史学中以描述为主的 
定性分析。计量史学本世纪上半叶至50年代始于法 
囯和美国，继而扩展到西欧、苏联、日本、拉美等国 


家。特别是60年代以后 9 电子计算机的广泛应用，极 
大地推动了历史学研究中的计量化进程。计量史学 
的研究领域也从最初的人口史、经济史扩大到社会 


史、政治史、文化史、军事史等方面；应用计董方法的 
历史学家日益增多，有关计童史学的专业刊物大量 
涌现，这方面的论文和专著更是层出不穷（其中亦不 
乏惊世之作）。至70年代中期，计量史学已成为国际 
史学研究中最庞大的流派，发展的速度的确相当快。 


人类进入了文明社会以后，就再也没有离开过 
数字，很难想象抛弃了童的概念人们将如何生话。事 
实上，量的概念早已深入到人类生活的所有方西，构 
成了人类社会存在的不可缺少的一个组成部分，也 


可以说量的概念巳溶入人类思维的潜意识之中。自 
古以来，人类在不断地探索量与量之间的抽象关系 
而逐步发展起来的数学，以及17世纪以后作为数学 
的一个分支而发展起来的统计学，对人类认识自然、 
改造自然起到了巨大的推动作用，数学和统计学也 
成为众多的自然科学学科赖以存在的基础。既然量 
在人类生活中的地位如此重要，那么我们在认识自 
身社会和 追拥历 史的时候也就不可能将量的概念置 
之度外。从历史研究的角度诸/没有量就很难准确 
地描述历史现象，解释历史过程，分析历史的因果关 
系。从几千年前先人们在撰写历史著作中引用儿个 
数字，到本世纪50年代蓬勃兴起的、系统地应用复杂 
的数学和统计学方法研究历史的计量史学，中间经 
历了一个漫长的过程，量在历史著述中的应用无论 
从深度到广度上都有了质的飞跃。今天，我们可以 
亳不夸张地饼，定性分析与定量分析的有机结合将 
是科学地、真实地记录和分析历史的唯一途径。早 
在一百多年以前马克思就曾表述过这样一种看法， 

即“一门科学只有在成功地运用数学时，才算达到了 
真正完善的地步 '① 

①见保尔 • 拉法格：*摩尔和将军一回忆马克思和思格斯 〜人民 出版社 
1 B 82 年版，第85页。 
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如果从威廉 * 配第的《政治算术》箕起，那么将 
数学引入社会科学的研究领域甚至可以上推到17世 
纪。自此以后，随着数学本身（及统计学）的日益完 
善和社会科学诸学科的日益成熟，这种结合愈来愈 
紧密 & 正如列宁在彳914年 所说： “从自然科学奔向社 
会科学的强大潮流，不仅在配第时代存在，在马克思 
时代也是存在的。在20世纪这个潮流是同样强大， 
甚至可以说是更加强大了，①197丨年哈佛大学的卡 
尔 • 多伊奇发表过一项研究报告，其中详细地列举 
了自丨900_1965年全世界的62项社会科学方面的重 
大进展，并得出如下的结论定*的问题或发现（或 
者 兼有〉 占全部重大进展的三分之二，占【930年以来 
重大进展的六分之五，®历史学家当然不可能对这 
些相邻社会科学领域的进展及发展趋势无动于衷， 
因为这些成就不仅提高了人们对当代社会发展过程 
的认识能力，而且很自然迪向历史学家提出了这样 
的问题：显示这些变化过程的历史记录如何呢？当 
然，这里所要求的历史记录，是能够与上述社会科 
学所应用的计量方法所得出的结论相对应的精确敫 


① <列宁全集、，第20卷，第189页，人民出販社1058年版^ 

② 转引自丹尼尔 • 贝尔第二次坦:界大战以来的社会科学中国社会科 
学院情报研宄所，1明2年版，第3页。 



据，而不是传统史学中惯有的描述。显而易见这不 
是一个传统史学所能够解决的问题，历史学面临着 
严峻的挑战。历史学家在思考并试图解答这些问题 
的同时，社会科学其他学科的各种新概念及计量研 
究方法也就自然而然地滲透到历史研究之中。 


将定量分析引入历史学无疑增强了历史学家解 
释和分析历史約综合能力，这主要体现在三个方而。 

第一，计董化使历史学研究的对象从传统的、 
以个人和事件为中心的政治史向以大众和过程为主 
体的总体史或综合史的转移成为可能，并开辟了史 
学研究的新领域。本世纪30年代，甴 M . 布洛赫和 
L . 费弗尔开创的法国年鉴学派在而方史学界率先 
将研究重心转向以经济-社会为楦心的整体史，即注 
重社会和经济活动的宏观过程以及各种较大社会群 
体的特征和历史湞变》这种转变并不必然要求计量 
分析，但如果历史学家沿着这条路走下去，他就不可 
避免地要涉及体现那些过程和群体的大量数量型资 
料，因而也就会自然地把计量作为分析资料、阐述观 
点、概栝结论的主要手段之一。这一点在年鉴学派 



第二代身上表现得尤为突&，从 F . 布罗代尔的“长 
封段”到 E . 拉杜里的“定董事态史' 统计方法鄯& 
成为一种主要的治学方法。 50— 70年代在美国 H 
靡一时的各种所谓新经济史、新政治史、新社会史等 
等，其所以冠以"新”宇，就在于它们太量借用了与 
识往的历史研究完全不同的其他社会科学•相应学科 
的概念和方法，而在这些方法中计量方法占了绝大 
的比重。60年代中叶英国出现的 人口统 计史及70 
年代在联邦德囯兴起的“社会历史学派 p 无一不以计 
量方法为其主要特征。 

第二，计量化为历史研究开辟了许多过去不为 
人重视或不曾很好利用的历史资料新领域，比如， 
从彳8世纪后半叶开始而方世界进入了所谓"统计时 
代\这一时期正值欧美资本主义制度的确立和发展 
时期，为了适应资本主义社会化大生产和世界市场 
范围大规模经济的需要，从18世纪起欧洲各国相继 
设立了专门的统计机构，负责搜集各种统计资料，定 
期或不定期地举行人口、工业、农业、贸易、交遁等方 
面的调查，出版或定期公布这些材料。到20世纪中 
叶 5 这类统计资料的积累历经200佘年，巳达到了相 
益可观的规模。计量方法为系统地、详尽地发掘和利 
.用这些宝贵资料，研究 资本主 义形成时期至今的这 



段历史提供了一个非常有力的工具 。 当然，举这令 
例子并不意味着计董史学研究仅局限于“统计时代 1 ^ 
以后的近现代史范围，如许多研究欧洲中世纪的学 
者通过计量手段使记载着教民出生、婚烟、死亡等内 
容的教区登记薄展现出新的重要价值。历史研究中 
的计量化还推动了收集和整理数董型历史资料的工: 
作。早在1962年美国的一百多所研究机构和大学就 
建立了一个计算机可读的美国政治史资料库，它储 
存了有史以来有关美国总统、州长和议会选举的全 - 
部挡案材料以及相关的各个时期的经济、社会、人口 
资料，以后这个资料库又将收集的范围扩大到130多 
个国家和地区。从此以后各国学者又陆续建立了许 
多有关一个村庄1城市、地区及国家的规模不等的数 
据库。这些工作为计量史学的进一步发展打下了良 
好的基础。 

第三, 计置化使历史学趋于严谨，精确。对于 
传统史学来说，无论是定性分析还是播述事实都要 
以文字的形式来表达，而用文字语言解释历史却有 
_个难以克服的技术上的问题，这就是文字语言的 
多义性和模糊性。细心现察一下就不难发现日常生 
活中所使用的文宇语言的许多词（特别是涉及到理 
念及价值判断的词 语）， 在不苘的时间、地点、场 



合，在发出和接收它们的人们之间都会存在著某种 
差异0由于历史研究是当代人与过去的对话，这个 
问题更为突出，历史研究中的许多争论 问翅， 与其说 
是由于观点、立场上的分歧，不如说是由于对某些关 
戈性的概念及词语的不同理解所造成的。尽管人们 
早已认识_了这个问题，但由于历史学研究的对東 
是具有主观意识的人的社会活动而不是无意识的自 
然客体，历史学至今未能像自然科学或社会科学中 
-的经济学、人口学和社会学那样形成一套严谨而输 
硪的专业性语言。然而，我们还应该认识到既然人 
类社会生活中存在着大童的数董关系，那么用数学 
语言来表述某些社会历史现象或者将一些非数董型 
的社会历史观柬用某种数董形式表述出来，无论是 
逆辑上还是方法上都是可行的 （这并 不是说人类社 
会的所有方面都可以转换成 数董形 式）。事实上，在 
上 述社会科学的诸领域中人们早已将社会生活的某 
些同质或同类的要素非人格化，即将人类的活动转 
化成抽臬的数字，再运用数学语言对其进衧分析研 
究。同文宇语言相比，数学语言有这样一些特点，其 
一是准确性。在渉及到观象的规模、速度、程度、范 
逋等 方面，数学语言的优势是非常明显的。我们说 
龙 董分析比定性分析更准痛，实际上就是因为用来 



表达定量分析之结果的數学语言较之定性分析的欠 
宇语言具有更高的精确度的缘故；其二是通用性。数 
.学语言不受时间、地点、语种和不同体制等人为因素 
.的限制，它的内涵十分清晰明确，不存在意义的外延 
问题； 其三是可比性。这一特点在历史比较研究中 
很突出 3 无论是纵向比较还是横向比较，数学语言比 
文宇语言更容易建立起一个绝对的比较标准,其四 
是简洁性。数学语言往往叙用若干指标、指数、等式 
或一组模型就可以说明一个非常复杂的社会现象或 
社会发展过程。上述达些特点使得采用数学语言的 
计量方法在评述具有数量特征的社会历史现象时比. 
文字语言更准确、更有方 & 


计董史学近几年才被介绍到国内来，并正在引 
起越来越多的史学工作者的重视。应该说，计量史 
学在中国的前景是广阎的。首先，40年来中囯史学 
-研究从整体上讲是以马克思主义的历史唯物论为指 
_导的，而从历史认识论的角度看，唯物史观的基本烕 
则不权与计量方法之间没有相抵之处，相反却为历 
:史研究中应用计量方法提供了广大的天地。关于这. 



一 点法国著名的马克思 主义历 史学家 A . 索布尔曾 
有过一段精辟的论述。①他认为马克思主义历史学 
与历史社会学有众多的相似之处，所有的政治史，从 
某秭意义上说都是社会史，而对社会史的最终分析， 
只能是计董史。因为应用于社会史研究钧资料必领 
.以精 碱均肴 关社会结构、社会变化过程和社会经济 
事态的知识为前提条件，绝不能是“脱离实际的”或 
“非社会性的' 这类资料本质上就具有数量特征。 
再者，从资料方而看，研 究中® 历史的学者更具有得 
天独厚的条件，这就是两千多年来中国的 历 史记录 
^直未曾中断，而且丰富多样。就拿最适合于计量 
化的经济史 、人口 史方面的资料来说，正统的 二十五 
史中大多都有专业记载税赋、田亩、人口及其他经济 
情况的《食货志》，成为一秭定例。这些 《食货 志》中 
咆含了大董的数量型赘枓，对于计量史学研究非常 
碜贵。 …除此之外，在浩如烟海商历史典籍、文献，特 
别是数量众多枘地方志中数量型资料更是不胜枚. 
孝。我们完全有理由期望计量方法将在中国史学研 
究中发挥吏大的作用。 


①参见 G * 伊格尔斯:*欧洲史学新方向*，华 g 出版社 49 S 9 年版， 第 
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《计量史学方法导论 》 —书初版于 1973 年， 中译- 
本根据1979年的第二版译出 4 尽管本书作者在引言 
中 声称，这本书不是一部有关统计学的教科书，然_ 
而以 73年它一问世立即受到国际历史学界的高度评 
价，在欧美地区特别是英语世界里许多大学的历史 
系都选用此书为训练学生掌握计量方法的标准教_ 
材，更多的历史学家则把它作为涉足计董史学領域 
的入门书。本书的篇幅虽然不大，却包括了一般计 
量史学申所使用的一些最基本的统计学方法和技. 
巧. 

任何历史学家在从事历史研究时都要首先 对历、 
史资料进行某种形式的分类，以适合自己韵研究需 
要，计量分析亦不例外。弗拉德认为对资料的分类 
是系统研究历史证据的基本要求之一。因此，在第 
—章里他就提出了对历史资料加以分类的三种类 
型：定名资料、定序资料和区间资料*在计量分析中 
不同类型的资料将使用不同的统计方法，对历史资 
料的分类是否准确，将直接影响到计量分析的准确 
牲。在第二章里，作者叙述了完成对资料的分类队 
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后如何对此加以进一步的整理以达到统计方法的要 
求，解释了计董分析中的一些基本概念，如资料集、 
个案、变董、资料矩阵，等等 & 第三章介绍了几种简 
单而又实用的统计方法的计算，以及简化数学运算 
的一些技巧。第四章和第五聿的内容即所谓“描述 
性统计”方法。由于描述性统计不需要高深的统计 
数学方面的知识，便于掌握而且应用这类统计方法 
得出的结论易于理解，因而为大多数计量史学家所 
涞用。其中有频数分布法、图表法，以及利用若干指 
标来反映总体的基本特征和规律的概括性方法，即 
各种平均数的计算和应用。第六章为时间数列分析 
乂 也称力动态分析）。时间数列分析从数量方面研究 
历史现象发展变化的趋势和速度，揭示历史现象不 
同发展阶段的特点和规律，在计量史学中占有重要 
地 位。第七章为相关分析法。它涉及到如何确定两 
种或两种以上的历史现象之间是否存在着某种关 
系、其关联的程度如何，以及 它们的 形式等问题。第 
八章着重讨论资料的缺失问题。由于种种原因，在大 
多数情况下历史学家并不能完整地得到他所需要的 
全部资料，数据的缺失问题在运用计量方法研究历 
史时显得更为突出。为此，作者专门用一章的篇椹 
来讲述解决这类问题的方法^在第九章里作者向读 
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者介绍了电子计算机的基本情况，以及历史学家 iT 
样应用电子计算机进行计量分析。最后，本书还提 
供了一份较为详尽的参考书目，对于那些想进一步 
了解计量史学的读者来说，它颇有参考价值。 

本书作者罗德里克_弗拉德教授1942年生于英: 
国伦较，曾先后在伦敦大学和剑桥大学讲授近代史 
和经济史，除本书外，还曾出版过《经济史论文集 
<<1700年以来的英国经济史》等著作。 



目次 







引言 1 

1历史资料的分类 7 

1.1 定名分类 . 8 

1.2 定序分类 . 10 

1.3 区间或比率分类 . 12 

1.4 —些复杂的问题 . 13 

1.5 重新分类和编组 . 16 

2历史资料的整理 1& 

2.1 资料集 . 18 

2.2 个案 . -19 

2.3 变量 . 20 

2.4 资料矩阵 . 21 

2.5 收集资料 . . ... …“ 25 

3 —些筒单的数学方法 29 

X--# Ci-V^-tflj .s - . ^ -I. A- J 4 . 

3.1 频数分布 .*：• . . . 29 


















3.2 求和记法 . 35 

3.3 对数 . 39 


4资料的初步分析 I :频数分布法和图表 43 


4.1 頻数分布 . 44 

4.2 交叉分类 . 49 

4.3 图表 . 52 

4.4 比率尺度图 . 58 


S 资料的初步分析 H : 概括性方法 68 


5.1 算求平均数 . 68 

5.2 标准差 . 73 

5.3 几何平均数 . 78 

5.4 中位数 . 78 

5.5 众数 . 82 

5.6 变异系数 . 83 

5.7 运用哪一种？ . . 84 



















6 时间数列的分析 89 

6.1 时间数列分析的对象及假设 . 92 

6.2 增长率 . 95 

6.3 趋势 . 99 

6.4 时同数列中的经常性波动 . na 

6.5 比率和指数的运用 . 123 


7变量之间的关系 131 

7.1 是否有关系？ . 133 

7.2 关系的强度如何？ . 145 

7.3 关系的形式 . 147 

7.4 含有时间数列资料的相关与回归…… 158 


8资料缺失的问题 165 

8.1 信息太多*变量的选择 . 167 

8.2 信息 太多： 个案的选择 . 171 

8.3 抽样结果的“显著性” 183 













8.4 资料太少：缺失资料的问题 . 187 

8.5 —个或更多的个案资料缺失 . 188 

5 .6 —个或更多的变量资料缺兴 . 190 

8.7 —个或更多个案中的一个或更多变量 

的资料缺失，而不是整个个案或变量 
的资料缺失 . 194 


9计算器、计算机和历史资料 196 

9.1 设备的 选择： 电子计算器 . 197 

9.2 设备的 选择： 计算机 . 199 

9 + 3为计算机准备历史资料 . 204 

9.4 运用计箅机分析历史资料 . 211 

. 218 


参考书目 224 

对数表 233 

反对数表 23 S 














翯引言 


f 我们描述和分析存在于过去或当代的人类社会时，我们 
^^不可避免地要使用数宇和数量。假如我们要对某一个人 
作一番充分的描述，那么他的年龄、出生日期、财产、妻子的数 
目、孩子的数目等等，都是我们必须了解的数量特征。在作这 
样的了解时，我们把他与其他人进行衡量和比较，是较富还是 
较穷，较年长还是较年轻，并试图通过这些方法，以及对他的 
思想和工作的讨论，确定他在其生活的那个社会里的位置^通 
常我们把行为或思想相类似的人分成各神集团。我们用“中 
产阶级'“法国人”、“保守派°这些名词术语来描述这些集团。 
我们必须以这种方式来进行分类和分组，因为只有这样才能 
将复杂多样的人类思想和行为变为可以处理的形式。 

像年龄、财产、子女的数目这类衡量显然是计量性的 4 
我们只有通过计算他出生以来的年份的才能衡 a —个人 
的年龄，只有通过计算他所拥有的一定的或以一定数目 
的货币单位表汞的实物或实物价值我们衡量他的财 
如果我们在描述生活在过去的人们时使用这类衡量，我们所 
用的即是计量方法。.与此对照，我们在历史研究中所使用的 




其他衡董和描述的形式是非计董性的，所描述的是个人或集 
团的思想或态度 I “法西斯主义者' “文艺复兴时期的人”就是 
这样的描述 a 但是当我们从事这些非计童性或定性的描述时 
常常会发现，只有通过衡董拥有这些观点的或者可以用这类 
名词加以描述的人们的我们才可以陚予它们一个充分 
的含义，并估计它们的历_史_意味。例如“中产阶级 " 是对社会 
中一个集团的描述，但是在许多场合它也是对社会中具有特 
定收入和态度的一定的人的描述，如果我们说“中产阶 
级支持政府'我们意多数（如果不是全部）被我们描述方 
“中产阶级”的人支持政府，而且只有通过计算这些人的 
我们才能够最终证实这一陈述的正确性。很多历史学家 
的定性判断和描述因而蕴含着一种计童的意昧，有时这种意 
昧需要明白表示出来。此外，许多对个人或集团行为的描连 
都含有计董的意昧；像“通常”、“ 一般”、“经常' “许多这些词 
都指数董概念，而且虽然一般我们不会去精确地加以验证，在: 
原则上它们的意昧或正确性只能通过计董性衡量来确定。 

像其他社会科学家一样，历史学家因而经常和不可避免 
地应用计量的概念。这个事实并不意味着他们所作的所有陈 
述都是计量性的，也不意昧着他们认为人类行为的所有方面 
都可以衡量并给予数宇。人类及人类中的不同集团和事物的 
许多侧面都不能以数量来衡量和表达；虽然我们可以测度一 
个中世纪农民的收入，我们却无法测度他花费这一收入时所 t 
取得的乐趣 0 同样，虽然我们可以測度15世纪生产的绒面呢 
的价格变化，我们决不会知道它们的手感如何 & 事实上，与 
其他社会科学家相对比，历史学家在他的测度方法上是尤其 
有限的 I 他不能询问他的研究对象有关其幸搞或态度的问題， 



0 此甚至没有希望能像心理学家和社会学家所做的那样，对 
幸福或政治态度作出相对的衡量。 

尽管如此，昔日人类经历的某些方面不能测度这一事实， 
并非不去测度那些可以为我们理解的那些经验方面的理由。 
至少，可以测度的方面有助于我们去解释难以测度的方面。像 
小阿瑟 ■ 施莱辛格那种观点，“几乎所有的重大问题之所以为 
重大，恰恰是因为它们不能以计量作答％①忽略了这样的事 
实，即没有计量答案我们可能就无法解释“重大”问题的证据 
所在。如果我们确定了某人的收入在增加而不是对他的收入 
—无所知_那么就更容易解释此人的幸福也在增加。因而即 
使我们基本上对"定性 比“定 量”问题更感兴趣，两者仍是不 
可分解地联系在一起的。定量问题补充定性问题，定量证据 
补充定性证据；两者无法相互取代，两者各自也不能以了解整 
个历史学的研究自命。不论他的兴趣何在，历史学家的一个 
主要问题是他永远面对着不完备的证据；我们从来就没有足 
够的证据可以有把握地说我们的解释或描述是完全正确的6 
如果在贬低计量化的重要性时，历史学家将计量证据排除在 
外或者将它降到一个附属的地位，那么他就是在进一步缩减 
他所得到的已经不完备的证据。计董证据几乎肯定不会提供 
—个全面的答案，但是它很可以提供一部分的答案，面把这部 
分的答案视若无睹地丢掉，既是浪费也是不负责任。 

对计量历史学的另一种更为严重而同样错误的批评是， 
运用计量方法必然陷入过分简单化，丢失有关过去的信息，将 


①小阿瑟，施萊辛格： 4 人文 主义者 眼中的经验主义的社会研究 P ( Arthur 
singer jnn.,*Tlie Kutnaniet lookj? empi rlcal social 获 

< 典国社会学评论*第 ae 卷(1明1年12月），第770页。 



个人强行纳入各种类别，以及随之而引起历史的非人性化。当 
然,分类或综合方法的任何应用，都会将多样化的人类历史经 
验简单化，因为这就是使用这些方法的目的，没有一个历史 
学家能够完仝穷尽那样的繁复性，而历史学家的心情同任何 
面对着繁复现象的人的心情一样，不可避免地要去寻求类型 
和类似性，同时抛弃或忽略许多不适合这些类型的东西与 
定性和印象主义的历史学相比较，计量历史学的优点在于它 
的分类的体系和方法，它所用的假设和所立的类型都是被宣 
明而清楚的.由于资料的分类和排除是一目了然的，人们没 
有必要去窥测历史学家的内心或追随他的思路以理解计量历 
史学。在明确地寻求类型和类似性时，计量历史学家也总不 
得不承认他是在进行简单化，并叙述他是怎样做的 I 他不会无 
意识地删除不利于他的证据项目。计量历史学家因而决不会 
看不到历史证据的固有的繁复性，他所设计的测度方 法正是 
将这一繁复性约简为能够理解的形式，但也对所用各种类型 
和平均数中的证据的偏差提供指南。 

也有一些质量欠佳的计量历史学，其中证据被强行纳入 
预定的类别，或者所用的假设与历史事实相反。无论如何，很 
难说没有不良的计量历史。但可以肯定的是，历史学家所做 
的大部分 〈如 果不是全部）陈述都是计量性陈述，许多历史证 
据也是计量性的，并应该用计量方法去分析，而采用计量方法 
的历史学家应善于利用它们 a 正如对中世纪手稿的辨识，对 
启蒙运动时期政治思_解释需要人们具有经验，受过训练 
和掌握技巧，处理计量枋料也需要人们懂得分析的特定方法 
和技术3历史学家不能简单地研究一个数字圈表而期望立即 

发现其中的意味;他必须学会抽绎出其中含义的技术，并将此. 

1 ■- - ■- 



含义与他所收集到的其他证据联系起来。因此，本书的目的 
就是帮助计量历史学家善于利用他的材料，并帮助那些阅读 
他的著作的人们判断他是否这样做了。 

下面各章联系它们在历史问题和历史证据中的应用，讨 
论了一些计量技术。第一章讨论对历史证据进行分类和整理 
的方法，以便运用本书后面所叙述的方法对它进行分析 & 第 
二章里讨论以概括形式来描述证据的方法，而第三章则讲述 
一些简单的数学技术，它们在证据的分析中很有用处 （不 需要 
具有起过简单的中学算术和初等代数的数学知识）。所以，这 
三章描述了历史学家开始他的分析之前所必须从事的预备性 
步骤。 

第四章和第五章叙述了分析的初步的几个阶段，第四章 
里讨论用图形和图表形式表述证据的方法，而在第五章里，讨 
论对集中趋势（平均数）的测度方法和离中测度方法 f 以补充 
上述呈现证据的方法。在第六章中，所有这些技术都应用于 
按年代顺序排列的证据（時间数列），并与一些在时间数列分 
析中十分重要的技术一起讨论。 

在第七章甩，应用本书前面所谈到的方法和概念以讨论 
关于确定两组证据之间关系的存在的统计方法。还讨论相关 
的概念，并筒单介绍一种最有用的统计方沬——简单线性回 
归。 

第八章涉及历史资料的一个特殊问题，在传统的统计学 
教科书中一般没有考虑到它——证据缺失的问题。根据以前 
几章所讨论的方法，提出了解决证据缺失问题的若干方法，并 
介绍了抽样的概念。 

最后，在笫九章里叙述计量分析的工具 t 电子计算机和- 



电子计算器。本书前面所讨论的种种方法并不荽求使用这些 
设备，但可以看出，有了它们的帮助，计量分析会变得更简便， 
更节省时间 o 

本书既不是一部统计学的教科书，也不是对历史学方法 
的讨论所作出的一种贡献。它也不能对计量树料的分析中 
可能出现的所有问题提供答案。近年来，对历史阿题进行的 
计量研究迅速增长。这些研究使用了种种从其他社会科学 
取来的方法，它们的数量如此之多，或在某些事例中如此史复 
杂，以至无法在本书中——加以描述。不管怎样，这些斫究和 
方法都具有本书以下各章所解释的一些基本统计技术的共同 
核心。本书是对历史学家所必需的一些技能的介绍，不论他 
想要阅读使用统计分析的书籍或论文，还是自己使用计量证 
据研究政治史、社会史、人口史、经济史，甚或思想史。本书也 
是计量历史学家最终都可能需要阅读或查询的统计学、计算、 
计童经济学或数学等其他许多书籍的入门书。 



历史资料的分类 


W 历史证据进行系统研究的基本要求之一就是必须把材料 : 
W 分类。根据他的先入之见和所研究的对象，历史学家自 


然以多神方式对他的材料加 W 分类。例如，历史学家一般将 
他们的材料分为第一手证据和第二手证据。第一手证据是在 
所研究的历史时期所产生的证据，而第二手证据则通常是经 


过了其他历史学家某神形式的再加工后得到的证据。历史学 
家所采用的其他分类方案区分文字的和考古的证据，书写的 


和印刷的证据，或定量的和定性的证据。历史学家还可以采 
用更为详细的分类方案；例如按照其来源的不同，人们可以将 
第一手证据分为日记、法律记录、法庭记录、报纸、选举结果、、 
商业记录。 


凭借使用种种记录的经验，历史学家逐渐形成了一些准 
则，使他们能够捃以判断出不同类型材料的价值，并帮助他们 
有效地使用这狴不同类型的材料。因此，他们将自己的材料 
分类，部分是为了可以更容易应用这些准则。因而，例如， 

巴格利将 1660—1770 年的教区记录分为两组：人头税统 
计表和洙礼、结婚、丧葬的教区记录傅。对这两组加以区分之 



后，巴格利认为，人头税统计表对于人口变化并不是一个可靠 
的指南，而教区记录簿有时会成为可靠的根据 。① 

便用计 量紂料 的历史学家必频学会不仅根据它们的来源 
和可靠性，而且还根据它 们茬多 大程度上显示出适用于不同 
的分析方法来将自己的材料分类。他必须采取的第一步是检 
查他的资料，即我们将称之为他正在分析的材料，并以有助于 
他分析的方式对它们进行分类。可以区分出我们能够釆用的 
三种分类 类型： 定名，定序和区间。我们能否以这三种类型之 
—将资料分类，完全取决于我们所拥有的信息和证据的数量。 

1.1 定名分类 

^^一种和最简单的分类形式，是我们在日常言语中所用的， 
¥即我们把事橄通过赋予其名称而区分为属类；它常是计 
算每一类包括多少事物的第一步。例如，《末日裁判书》②的 
编篆者在记录1080年肯特都的威 (Wye) 采邑时所提供的信 
息就是定名 资料： 

有犁③土地 & 庄园中有9犁土地， M 4 名佃农有22 
块边沿迪，合17犁。有一座教堂和7名农奴，4座磨坊 


① J ' r 巴格利 刃史妁 航释，2:英閔史资料，15纟0年至今 
Historical J liter pretali on , 2： ^ ontc^s of Ii ] Dg]ish Kistory , 1540 to 

the Day )， 哈芒茲沃斯：企 鹅阁# 出版社， 197 丄年，第昶― ]54] ^ 

② <未日欲判书^ (Domesday Book ) 1080年英爾威廉一坦:颁布的全国土 

地 、财产 、牲畜和农民的调查淸册。——译者 \ 

③ 犁 （ plotigt ) 力英国历史上邱献地面积单位，约合八头牛一年中可耕的 

土地。一译者 - 
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价值 23 先令8便士，有丨彳3英亩的草地和林地，根据 
林地牧渚杈税应缴纳300头褚。 © 


在这个例子中， 〈(末 日裁判书》的编赛者检査了威采邑中 
.的各种物质对象、人、家畜和农业工具，賦予它们名称并得出 
每一类的总数。 

指出对威采邑描述中的若干特征是重要的——这些特征 
一般都应用于定名分类。第一个特征是，从原则上讲賦予威 
采邑中每一特性的名称是任意的。如果我们陚予这些特性以 
拉丁文的名称，一如在原稿中所陚予的那样，或以我们自己的 
某神新语言的名称，对这一村违的描述不会有什么不同，所 
陚予的名称并不重要；只要《末日裁判书》的编纂者和它的阅 
读者双方都同意以这些名称陚予某些特征，这些名称就是符 
合要求的。 

定名分类的第二个特征是，它并不含有持征排列的次序 
具有任何特殊的目的之意，并旦也没有威采邑中的一个特征 
比另一个更为重要之意。虽然这些特征是按照所引原文的次 
序给出的，但如果它们按不同的次序排列，也不会对这一村 
庄描述的准确性产生什么不同。事实上，《末日戟判书》的编 
築者在每一项记录中大致上保持相同的排列次序，这样有利 
于对采邑间进行比较，但是在每一采邑中，次序是无关紧要 
的。 

正如描述威采邑时那样，定洛分类的第三个重要特征是， 


①巴格利：历史的解释，1:英国中世纪史资枓， 1066— 1540年* 
(J, J. BAgl&y, Tiiatorical Inisrprstation, 1: Souroea of filDglish Medieval 
History , 10^6-1540) ，哈芒兹沃 斯:企 鹅图书出版社，1拥5年，第 27 页。 



项目所列入的备个类是没有联系的或相互排斥的，并且除了 
是同一采邑中的不同特性之外，它们之间没有任何关系 。例 
如，不可能将牧猪和磨坊相加，并得出威采邑有304牧猪/磨坊 
的结论，因为牧猪和磨坊这两类彼此分立，不能合计。甚至对 
于犁的情况，看来似乎有可能推断出这采邑总共有26華土 
地——9犁在庄园内，17犁在庄园外——我们也不能打被这一 
准则；事实上我们不是在将庄园土地与非庄园土地这两个不 
同的类相加，而是建立一个包括这两者的新的类——所有类 
型的土地。像这种将各类编组运算通常是可能的，但应该认 
识到在编组中我们并没有将两个类相加，而是建立了一个新 
的类。 

12定序分类 

#很多事例中，我们所有的信息数量或者我们关于资料愿 
#作出的假设数量，便我们可以比仅仅列举我们感兴趣的 
某些事物的特性稍进一步。坷以在我们所用的类上施加某种 
次序，而说组成一个类的项目比组成另一个类的项目要大些， 
老些，小些或丰富些。假如对己经建立起来的各类之间的关 
系能够作出这样的陈述，这种资料就被认为是定序类型的资 
料。 

在历史著作中经常碰到的定序分类的一个例子就是社会 
地位。例如， 168& 年格雷戈里_金为英国人口中的社会各阶 
层编制出一张一览表，以及对每一社会阶层的家庭数目的估 
计。表 hi 给出的就是从这个一览表中摘录的显示在他的26 
个社会阶层中的前13 个， 即社会结构的上层 一半部 分的情 



况。在对社会阶层的这种分类中，类的编纂者不仅列举了各 
种类以及象定名分类那样给出归属各类的项目数，而且他还 
感到有可能对一类与另一类之间的关系作出陈述。格雷戈里 * 
金不 K 计算出世俗贵族和精神贵族的家庭数目，并且判断出 
前者多于后者。 

在定名分类中次序的排列无关紧要，即使将它们打乱也 
不会有什么不同，而对于定序分类，次序正如“按次序”这个形 
容词所意指的那样，是非常重要的。假如我们将格雷戈里•金 
表中的各类打乱，并按一个不同的次序排列它们，那么我们将 
失去他这个一览表中的重要特性* 

定序资料，我们为方便起见可以将所有能按定序分类的 


表1,1 各社会阶层内的数目，约 less 年 


阶 级 

家庭数目 

世 俗贵族 

163 

精神贵族 

2 S 

从男爵 

800 

骑士 

603 

地兰 

3000 

绅士 

12000 

官位较髙的人 

gooo 

官位较低的人 

5003 

从寧 悔上贸易的著名商人 

2000 

从事 海上贸易的一般商人 

8000 

法律界人士 

10000 

著名教士 

2003 

—般教士 

8000 


资料 来源： 格雷戈里 * 金，转引自 I 索尔托夫，英国收入不平等的丧期变 
化 * ，载 * 经济史评论， （ L. Soltow, 4 Xiong-run in British income iae- 

quality 1 , Ecanomic History 第 21 卷 （ 1&5 &) ，第 1 勘，第 18 页 s 
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资料以此称之，所以比定名资料更有价值，只是因为各类之间 
的次序是对资料的一神增加的信息，它以后可用于进一步的 
分析中。 


1.3 区间或比率分类 

— p 如各类的排列次序的附加信息使定序资料有别于定名资 
料那样，有关各类之间的精确关系的进一步信息是区间 
或比率分类的区别特性。当各类的次序和各类之间的区间规 
獏已知，并且这一信息可用于以后的分析时，我们就能以这种 
方式将信息分类。对历史材料的计量分析中所使用的大部分 
资料属于区间或比率类型资料，最熟悉的例子包括收入资料、 
选举统计、投票人数、人口统计、作物收成等。如表 1.2 给出的、 
就是英国19 29 年普选以后议会巾各政党的情况。有了这神资 
料，不仅可以说议会中的工党议员比保守党议员多，而且可以 
说他们准确地多28名，而保守党则又比自由党多201名议 
员。换句话说，我们有一个固定的单位——议员的数目可用 
以测 度荇个 政党的势力。假设测度的单位有一个零点，就像 
我们想象一个政党投有一名议员，那么我们得到的就是比率 
资料只有当资科的测度单位不存在零点时，资料在理论上 


表 1.2 下议院中各政党的势力，1323年5月31曰 



_ 政党 

席位数 


_r_ 党 

283 


保守党 

260 


亩由党 

59 


无党派人士 

8 


讲才 m 于区间资料;这种资料的主要例子是对温度的测度，其 
中零点是任意确定的。它不同于以货币单位测度收入的比率 
尺度，因为分文没有的情况具有不仅是任意确定的意味。不 
过，在实践中比率资料与区间资料之间的差别并不重要 f 大多 
数历史资料为比率类型，但它们常常也被看作是区间类型，在 
本书中我们可以交换使用这两个名词。 

1.4 —些复杂的问题 

_过初步分类之后，能够对资料进行进一步的分析的数量， 
@依历史学家所掌握的资料的类型而定^区间资料比定名 
资料或定序资料更有价值，因为有关次序和排列的增加信息 
已蕴含在区间资料之中了，因此，对这类资料我们可以应用更 
复杂的分析方法。 

正是由于这个原因，历史学家能准确判断他的资料是定 
名、定序、还是区间类型很力重要。如果他不能做到这一点， 
就会 H 两种凤险。如果他假定他的资料属定名类型而实际上 
是属定序或区间类型，这固然不成问题，但他却要为此付出代 
价，即他可能应用的分析技术的范围将受到极大的限制。另 
一方面，如果他假定他的资料属区间型而实际上却只 是定序 
型，那么他将作出了一个错误的假定，他所应用的只适用于假 
定力区间资料的任何统计方法会产生错误的结果^因此，历 
史学家在开始他的分析之前，必须能够判断出他的资料所属 
的最近似类型。 

在大多数情况下，能作出的或者我们能假定由资料的编 
綦者作出的分类类型是清楚的，像在本章前面所列举的定名、 
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定序和区间资料的例子那样。在另一些情况下，决定资料确 
属哪一种类型则要困难得多。举例来说，当格雷戈里 • 金作 
出根据社会阶层的英国人口一览表（如表时，他如上了每 
—阶层家庭年收入的估计值^表 1.3 给出了这些估计值的一 
部分，这次是为社会结构的下半部分所作。 

至于表1，3中的左边两列，两者合起来显然代表定序贤 
料。尽管对格雷戈里 * 金是否正确地确定了社会阶层的次序， 
比如陆军军官是否真属较海军军官为低的社会阶层，而两者 
是否又都低于店主这类问题可能存在着一些争议，但是这些 
资料属于定序类型是毫无疑问的。困难来自决定表中第三列 
(即 以英镑为单位的每一家庭的年收入）是否属于一个不同的 
类型 e 从表而上看，它是一个比例尺度 f 英镑是一个明确的诞 
度单位，具有一个清楚的零点。然而，问题在于格雷戈里 •金 
编制他的估计值时所能得到的资料来源1由于他并没有关于 
1688年家庭收入的完整统计，他的估计值在很大程度上只能 
是基于自己经验的推测。我们必须决定金是否能够拫据自己 
的经验作出准确的估计，或者他只是根据不同家庭在社会中 
的地位来定其可能的收入。如果属于前者，我们可以把他的 
资料看作是比例类型，尽管对确切的数字还有疑间 I 如果属于 
后者，那么只是假充比例资料的定序资料而己。 

无法决定资料是属于哪一类型的问題在运用历史统计时 
发生得相当多，因为历史学家对他正在应用的资料是按什么 
方式编集的知之甚少。不幸的是，对处理这类问題并不存在 
着普遍适用的准则 I 历史学家必须自己作出判断，而他的读者 
又必须对这一判断作出判断。例如，应该注意到在上述金的 
资料这一特定事例中，年收入的次序并没有完全与社会阶层 



饰次序相一致 > 海军军官的年收入被说成是正排在他们前面 
钠工匠和手工业者的一倍多，而年收入为 42 i 英镑的农场主 
又排在年收入为60英镑的从事文史哲和科学的人们之前，这 
种次序上的不一致或许可以证明，金还有某些其他的 ffi 据作 
为他的收入统计的依据，他并不是仅按照他对社会阶层的理 


解来定数宇。因此，完全有理由将收入资料看作是比例类型 
助资料。 


表 " L 3 英格兰按社会阶层分类的家庭数目 
和每一家庭的年收入， 约 1 G 88 年 


阶 级 

家庭数 

每一家庭年收入(英镑） 

较髙等的土地占有者 

40000 

91 

较低等的土地占有者 

120000 

56 

农场主 

150000 

4 4 

从事文史哲和科学的人 

15_ 

60 

店主和商人 

50000 

45 

工匠和手工业者 

60000 

38 

洧军军官 

5000 

SO 

恥军军官 

4000 

60 

普通士兵 

35000 

14 

普通海员 

50000 

20 

劳动 A 民和在户外做工的人 

364000 

15 

茅舍农和贫民 

400000 

4 

沆浪者，乞丐，吉普赛人1 
小偷和妓女 J 

30000人 

每人2英镑 


资料來晾 t 金。 


一般说来，明智的是谨慎从事，假定资料是属于信.息含量 
较少的类型，除非可以肯定它们符合信息含量较多的资料类 
型的准则 5 另一种办法是应用不止一种类型的统计方法而比 
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较其结果。本书后面还要举出关于类似的对象但适用不茼资 
料类型的各种坷能的方法的一些例子。 


1 S 重新分类和编组 

^^得同样一组信息可以按若千不同的方式进行分类是重要 
_的。在我们所举的有关 《末日 裁判书》的例子中，我们得 
知威釆邑有300头牧猪。就其本身来说，这是对信息的定名 
分类，但是如果我们掌握了，比如说，《末日裁判书》中其他采 
邑的牧猪数量的信息，我们就可以应用这一增加信息，根据其 
他采邑所®有的牧猪数目，对威和其他采邑进行分类。如果 
我们只知道威捆 有比另 一村庄更多的牧猪，我们将得到一个 
定序分类，而如果我们确切地知道究竟多几头牧猪，我们就能 
够在区间分类里确定威的位置。这种分类和重新分类的能方 
非常有价值，因为只要我们时刻意识到已采用的分类类型，我 
们就可以用不同的方式利用资料的不同特征。 

时刻意识到自己在做什么这一需要也适用于历史学家时 
常从亊的另一种分类的形式。它不是一种替代，而是正常地 
与定名、定序和区间分类结合在一起的分类形式。在讨论定 
名分类时已经指出，如果有必要，资料的两个项目——■庄园内 
的耕地和庄园外的耕地——可以归并为另一个类，即总耕地。 
这一归并过程，或有时称为综合，在历史学家应用和处理证据 
时时常发生。举一个最简单的例子，一个人既可以作为单个 
的人，也可以作为一个儿童组、父母组或祖父母组的成员之 
一。此外，裉据他的工作，他还将威为一个职业组的一部分；根 
掘他的年龄他又成为一代人的一部分，等等。如琴我们充分了 
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解一个人，我们可以认为他或她处于某个一组或许多组之中。 
当我们把人们看作是城镇居民而这些城镇本身又是郡的一部 
分时，我们又可将上述各组归入一些更大的组。在这种情况 
下，我们既可以把他或她本人，也可以作为家庭的一个成员，城 
镇的一个居民或者国家的一个公民来谈论某个个人的行为。 

在其他情況下，我们所知可能只限于一个组的行为，而对 
这个组里成员个人的行为却一无所知。那么我们掌握的是综 
合资嵙而不是个人资料。我们必须留意这一区别，特别是因 
为许多公布的证据是综合性的。例如，社会史学家大量利用 
人口普査的报告，在这些报告中描述了像特定教区或郡的居 
民这类集团的社会和经济特征。同样，经济史学家研究一淸 
费者集团对某种商品的需求，而政治史学家则研究由投票者 
集团的行为所决定的选举结杲。在所有这些事例中，集团的 
行为由此集团中所有成员的行为所决定，但是(除了出现未必 
可能的情形，即他们的行为完全一致），我们无法推断出任何 
—个个人是如何行事的。换句话说，我们能够从个人资料导 
出综合资料，但是来必能从综合资料推断出个人资料6这在 
楣据综合资料，试图将个人行为的某一方而与另一个人的行 
为的某一方而联系起来研究中是一个特殊的困难，所以在本 
书的后而还要再一次谈到这一问题 * 



V 



历史资料的整 S 


A. 


g 史学家除了应用上一章所讲述的方法将其资料分类之 
W 外，还必须学会整理这些资料以符合计量分析的要求。不 
同的统计方法需荽不同的整理资料的方式，然而可以定出一 
些普遍性的原则和语汇。它们是为了保证清哳和一贯性，省 
时省力，并避免在分析的以后阶段中可能出现的混乱而设计 
的。 

2.1 资料集 

* 一章中我们在一种最广泛的意义上用°资料 ”一词 来描述 
一^历史学家所处理的挝料。@而我们需要用另一个名词来 
表示那些用于某个特定分析项目的资料，为此我们将使用“资 
料集 3 这一名词来描述历史学家打算在某个特定分析项目中 
所使用的一组连贯的历史资料。如果一个历史学家感兴趣的 
问题不止一个，他可能想要在分析中使用几个资料集，但在这 
种情况下 ，他 仍不妨 把他的村料看成是一系列资料集，它们共 
周组成他正在研究的证据的整体， 
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把证据视为一系列资料集的目的，是要强调历史资料不 
应被看作是过去遗留给我们的一堆模糊不清的信息，而是与 
我们所想荽研究的特定问题相关联的一件件信息 。 在任何- 
个研究项目中，我们都将选择我们认为与我们正在研究的问 
题有关的那些信息，而忽略其他 信息。 举些例子有助于澄清 
资料集的概念。如我们对 10 S 6 年英国采邑社会模式的研究有 
兴趣，那么我们的资料集就很可能是对 《末日 裁判书》的 考査； 
换句话说，我们从有关 10 S 6 年英国的范围广泛的、各式各样的 
信息中选出一组信息，我们称它为这个特定项目的资料集。与 
此类似，在对英国选举的研究中，我们的资料集之一很可能是 
一组选举结果，就像表 1.2 列出的英国1929年选举结果一样。 
因而一个资料集就是从历史学家所能得到的所有历史资料中 
的一组连贯的资料。它之所以被选出是因为它与历史学家想 
要考虑的问題密切相关 a 

2.2 个案 

一个资料集都是由一系列个别的资料所组成,它们汇集 
_起来形成一个与某个特定问题有关的证据整体。所以，在 
每一个资料集中，我们必须对资料加以整理使之便于对这个 
问题的思考；不能只把资料杂乱无章地写在纸上或卡片上，而 
必须加以一贯和合乎逻辑地整理。 

对任何资料集进行整理的基本单位是"个案\个案由与 
一项调査的特定部分有关的各件信息所组成。例如，在《末曰 
裁 判书》 中，我们可以把每个采邑看作为一个个案，包含着描 
述这个采邑的各件信息^与此类似，在对选举结果的研究中， 
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每一次贅选结果都可视为一个个茱，因而1929年的选举结果 - 

就可以被认为是从各届英国贅选结果资料集中所抽出的一个 

个案。因此，每个个案可能是一个人或一个采邑，也可能是选 ^ 

举结果，还可能是一些集团戎集合体》通常，我们不将个人的 

和综合的资料混杂在任何一个资料 集中。 夂 

2.3 变置 ^ 

g —个案包括若干有关其自身的信息。这些信息描述了个 A 

'^案的不同特征。以《末日裁判书》为例，我们了解到在威 
采邑里有多少舉土地，多少名农奴，多少亩牧地。如杲再看其 - 

他采邑，或其他个案，我们会发现有关其他采邑这些相同特征 
的信息》有些采邑可能拥有和威采邑同样多犁土地，其他采邑 、 

或多些，或者少些 U “采邑拥有的 犁数” 这个特征将有交动 ， EP 
从一个个案到另一个案有所不同，我们因此可以称它为一个 ^ 

可变化的特征，简称“ 变量' 我们因此可以知道每一个案都 
是由与所有个案共同的各种变董相关的若干不同的信息所组 " 

成，而且我们因此可以说，每个个案是由若干值所组成的，一 
个变量一个值《值并不一定是数量性的（比如每一采邑的名 ' 

称，也是一个变量），而且采用数字和文字混合的方法来记录 
每个个案往往是合适的。 V 

在我们普选结果的例子中，个案是普选结果，而变董为每 ^ 

次选举以后各党派的实力。因而有四种 变量： 工党实力、保 ^ 

守党实力、自由党实力，和无党派人士实力，而1929年这些 、 

交量的值分别为 
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2 + 4 资料矩阵 


#纸上或者在脑中把资料集加以整理是合适的，这样做能 
#使我们清楚地分辨出哪些信息是资料集的组成部分，哪 
些是个案，以及哪些是变量。使资料具有条理性的一个方便 
.的方法就是使用 H 资料 矩阵％ 表 2.1 所给出的是《末日裁判 
书》釆邑资料集的一部分，它就是一个资料矩阵的实例。 

在表 2 .1 中，我们就《末日裁判书 >〉所给出的5个釆邑提 
出了某些证据。我们提供出信息使得每一个案 〈在此 表中就 
是每个釆都有自己的一行，而每一变量（每一采邑的可耕 
地数，草地的亩数，個农的数目）都作为矩阵表的一列。所以， 
我们可以把资料矩阵认为是由几个逼常代表个案的行和通常 
代表变量的列所构成的（在本书中，我们将严格遵守这一惯 
例，但是读者也应知道，为了展汞方便或其他原因这一惯例有 
时会被打破 K 


表 2.1 «末曰裁判书》采邑 


采 邑 

可耕地 

草地亩数 

■f 田农 

威 (Wyc) 

52 

— 

114 

斯辿夫基 （ SUffkey) 

1.5 

2 

— 

密尔顿 C^Qlton) 

15 

20 

14 

昂待尔 （ Omidle) 

9 

50 

23 

里兹 （ Leeds) 

C 

一 

27 


一短划表示数据缺^_ 

资料 來源： J . J * G 格利^历史的解释，1:英 K 中世纪史资枓， 1066—1540 
，哈芒茲沃斯：企鹅 m 版社，1905年，苐 27—29 页。 


我们可以把表 2.1 给出的矩阵称为具有5行4列的资料 
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矩阵。在分析过程印，将注意力集中于一行或一列，或者可能 
是某一信息上，而为了这部分的分析抛弃矩阵表中的其他内 
容，这对我们来说常是方便的，但我们这样做时，往往不知道 
该怎样称我们所惑兴趣的那些特定信息 I 比如，说“给出昂特 
尔 （ Oundle ) 采邑中草地亩数的一个数据”就相当累赘丫。 

为便于指称资料矩阵中的单个信息，我们可以使用一种 
矩阵标记法。就像代数中 我扪常 用宇母表中的宇表眾数宇一 
样，我们也可以用字表眾矩阵表中的每一个信息 （每一 个“矩 
阵元素，。表 2.2 现示了一种这样做的可能方法。 


表 2.2 么末曰裁判书>采邑 


采 邑 

可耕地 

草地亩数 

佃衣 

烕 ( Wye 〉 

a 

b 

c 

斯迪夫基 (Stiff key ) 

d 

e 

f 

密扭顿 （ MiUon ) 


h 

i 

昂特尔 

J 

Jc 

1 

里玆 CT , ceas ) 

m 

n 

V 


在此表中， a 代表52, k 代表50，与表 2.1 列出的矩阵表 
中的对应项目。利用 这种方 法，我们就能便于指称某个信息。 
现在我们可以用 “ k " 代替"给出昂特尔采邑中草地亩数的一 
个信息％ 

然而，用字母表中的宇代表矩阵中的元素这种方法显然 
受到严格的限制。如果我们的元素超过26个，宇母将会用光， 
、而很多数据矩阵中的信息会超过26个。因0%我们需要某种 
更为概括性的方法来表示一个矩阵中的元素，表2_3显示的 
就是这样一种方法。 

在此表中，我们用宇母 A 并辅以下标表眾矩阵中的每一 
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表 2.3 资料矩阵 A 代表 G 末曰裁判书》 5 个采邑 


采 邑 可耕地 草地亩数 佃农 


威 (Wje) 

A| T 

A ia 

A i* 

斯迪夫基 （Stiff key) 

a 21 


A 幻 

密尔顿 (Milton) 

■A. SI 


a 5) 

昂特尔 〔 OuudLe) 



A* s 

里兹 （ Leeds 〉 


A 5 i 



元素，下榇的第一位数表示元素所在的行，下标的第二位数表 
示元素所在的列。这神标记方法允许我们仅用字母表中的一 
个宇母和两个下标来描述一整个矩阵，甚至一整个资料集和 
其中的每一个元素。我们可以选用不同的字母来描述不同的 
矩阵或资料集。 

我们迄今已经讨论了不止1行和1列的矩阵，但是只有 
1 行或仅有 1 列的矩阵也是可能的^例如，我们抽出表 2.1 
中的第二行，就得到一个1行的矩阵，被称为1行向量，如表 


表 2.4 对斯迪夫基采邑观察的行向量 


采 邑 

可耕地 

草地亩数 

佃农 

斯迪夫基 

1.5 

2 

_ 

此表可用表 2.5 的矩阵标记号代替之 a 


茶 2 .B 

对斯迪夫基采邑观察的行向量 

B 

采邑 

可耕地 

單地 亩数 

佃农 

斯 迪夫基 





注意我们 m 了一个不同的字母，以免与较大的资料矩阵 a 相 










威 (Wye) 

斯迪夫基 〔Stiffkey) 
密尔顿 （Milton) 
昂待办 （Oundle) 
里兹 （Leeds) 


一种更为有用的方法是用字母4代表行下标，用宇母 j 
代表列下标 o 据此，对于表 L 3我们可以说， f 下标的值为 
1，2,3,4或5, i 下标的值为1，2或实际上，我们可将这 
个矩阵说成是矩阵其中纟的变化范围为 1至5, 而 i 为 
1至3。 

我们将使用这类矩阵标记法来讨论本书后面描述的许多 
统计学方法。虽然乍看起来应用这种标记法似是引入不必要 
的复杂，但以后我们会明白应用这种标记法会大大简化对汁 
暈资料的处理。 . 
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混淆，并且丢掉了一个下标。事实上，我们丢掉的是指出行的 
第一个下标；因为只有1行，第一个下标就是多余的了。 

与此相类似，表 2.1 第一列也可以如表 2.6 用矩阵标记 
号表达，我们即得到了一列向量 C ?。 这里我们又用了一个不 
同的字母，这里丢掉了列下标1因为只有1列，第二个下标就 
是多余的了。 

所以，同样的资料可被视为一个矩阵元素,或一个行向量 
元素或一个列向量元素^每次选择什么方式来表示它们完全 
取决于我们的兴趣在于整个矩阵，还是仅限于1个个案（行向 
量）或1个变量 〈列向 量）。 

表 2 -G 对 $ 末曰裁 判书》5采邑可耕地数最规察的列向置 
采 邑 可耕地 


I? 3 扈 5 

c c o c C 




2.5 收集资料 


^于按数据矩阵形式整理的资料适用于按以后将要描述的 
® 方法进行分析，那么当然，除非有某些特别的考虑不用这 
类整理，我们应该以资料矩阵的形式收集和陈列资料以备分 
析。因此，历史学家在开始一顼计量分析时，首先必须确定在 
他的证据中哪些部分将作为个案，其次确定哪些变量与他打 
算研究的个案相关。一旦确定了这两点，他就能按此整理他 
的材料。 

用上述亢法整理实际资料或多或少是一个复杂的过程, 
视基础资料的复杂性而定。把资料集整理成为资料矩阵的一 
个重要要求就是一致性；每一行必须由一个个案构成，而每一 
列记录必须包含与在这列中其他记录同属一类的信息。这种 
—致性一般容易达到 t 以表 U 3 中格列高里•金对以年收入 
划分的社会各集团家庭数 g 的估计为例，没有发生混乱的可 


表 2.7 《末日裁判书 》 中4采邑匍纳税土地 


采 邑 

需纳税土地 

M(Wye) 

7 苏 

密尔顿 （ Milkm) 

0,5 海特 (hide) 

昂恃免 （ Oundle) 

6 海特 (M&s) 

里兹 （ Leeds) 

10 卡勒凯特 （ carucates) 及 6 波伐待 (bovates) 

S 波伐特 (bo vat ee ) 

=1 卡勒凯特 （ camcate；)。® 


①苏伦 （ su 』 mig ， 约合 ao —120荚亩），海特 ( Mde ， 约合英亩），卡勒凯 
特 ( carucate , 约合100英自）和波伐特 （ bowthi 卡勒凱特的 i / S ) ,皆为 古財英 
.国土地 面积计 量单位 1 ——译者 
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能性。每一列都明确地规定，资料被清楚地说明。然而在其 
他事例中，或许由于原始资料记录上的混乱，也有可能导致错 
误。例如， （〈末 日裁判书〉)收集的有关每一采邑最重要的信息 
之一就是对需纳税的土地而积的估 th 表 2*7 所列出的是有_ 
关我们已经接触过的4个采邑的这方而的信息。 

在此表中，资料指各采邑的同一特征，即每一个案中的同 
一变置。但是在记录资料时，如果我们简单地列为表24那- 
样，那肯定要造成错误。 


表 2.8 《末曰裁判书》中4采邑需纳税土地 


夾 邑 

需纳 税土地 

烕 CWye) 

7 

• 密尔顿 （Milton) 

0,5 

昂特尔 

£ 

里兹 〔Leeds) 

10 + 75 

在表 2 . 8 中，由于各个寒〖己录土地面积的单位不同，我们; 


的资料列是不一致的。凡此种神，都可能违反个案之间一致性 
的要求。例如，在对英国选举结果的研究中，若我们不仅以每 
次普选后各党派的情况，而还以每次补缺选举以后各党派的 
情况作为个案，那么我们得到的资料集就是不一致的。每一 
列中的信息也许是正确而一致的，但个案之间将不同 t 一个个 
案是普选竞争所有的议席以后的结果，另一个个案则是补缺 
选举 （仅一 个议席 易手〉 的结果。 

有些人也许认为收集资料并将它们整理成资料矩阵时强 
调一致性的要求是多余的，但当应用计量的分析方法时一致 
性则是必不可少的。当历史学家面临如表 2.7 所给出的那种 
不一致的备料集时，他在能开始分析资料前必须设法克服这: 




一困难。他面临着4 种行动 方式的选择。 第一 ，也是最佳的 
选择，是将所有资料转换成一致的计量单位，如把苏伦和卡勒 
政特转换成海特 i 不幸的是，由于可能不知道不同计童单位之 
间的关系，并非总能做到这一点。在经济史中，这类常见的问 
题之一即不同的布匹用不同的单位计量，而这些计量单位之 
间的換箅率并非总为人知的困难。 

如果不能将资料转换成一个共同标准，第二种可能性就 
是接受这些差异，而把资料记录在不同的列中，好似每一种面 
积的计量单位都是一个单独的变量，如表 2.9 所作。这种方 
法的困难在于难于进行跨个案的任何分析> 而且它还浪费篇 
幅，特别是当需纳税土地只是需要记录的信息之一时,这一点 
可能是重要的 6 


表2,9《末曰裁判书》中4采邑嚮纳税土地 


采 邑 

需纳税土地 


(a ) 苏伦 00 海特 

(<o 卡勒凯特 

- 

威 (Wye) 

7 n-a 

n.u 

密尔顿 （ Milton) 

]i .a 0.5 

n.a, 

n*a 

昂特尔 （ Oundle) 

n.a 6 

里兹 （ Leeds) 

n^a n,a 

10.75 


表示数 据缺。 


第三种可能性是省略非典型性的计量单位；苏伦为肯特 
郡的计量单位，不用于英格兰的其他地方，而卡勒凯特不如海 
特都样常用，因此省略以苏伦和卡勒凯特为单位的信息，而如 
表 2.10 那样记隶信息或许是切合实际的。 

由于抛弃了部分资料，这种方法比前两种方法较难令人 
满意；应用苏伦和卡勒凯特来计量资料毫无可能。 
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表2:10 

<末曰裁判书 》 中4采邑*铂税土地 

采邑 

以海特为单位记录的需纳税土地 

威 ( Wye ) 

a *& 

密尔顿 （ Milton ) 

0-5 

昂特尔 

6 

里兹 ( Leeds ) 

u.a 


n - a 表示资料缺。 


第四种方法，也是最不令人满意的一种方法，是完全省略 
有关不一致记录的变量的任何信息。如在表2,7我们对《末曰 
裁判书》研究的例子中，应用这种方法的结果就是失掉整个表 

格的意义-种极端的办法^然而，若引起困难的项目只 

是需要记彔的许多件信息之一，并且它在以后的分析中不占 
有很重要的地位，那么与其面临缺乏一致性的问題，完全抛弃 
它可能是无损的。反对这种方法的主要理由在于，资料在被 
抛弃， 面在 记录资料的阶段通常很难判断哪些信息在以后的 
分析阶段里是有还是没有价值0因此，除了在不得不这样敗 
的情况下，保宵资料总比抛弃资料为可取。 


—些简单的数学方法 


: ^这一章里，我们将讨论一些简单然而是重要的统计学方 
法的计算。我们还要讲述一些简单的数学技巧，它们简 
化了这些方法的计算，而且在本书的以后部分我们还需要用 
到它们 c * 某些技巧对那些能记得他们在学校里学到的数学时 
人是熟悉的，而其他技巧则将对很多人来说是新的，对此我们 
将给予相当详细的说明 & 解释统计学概念也可以不用一两个 
这些数学技巧，但是这样做却可能导致不必要的复杂化和对 
简单的论点作冗诠的解释。 

3.1 频数分布 

#料矩阵中的每一列都是由与本矩阵中各个案的某些变董 
W 特征相关的值所构成^倘若我们特别对某个变童特征感 
兴趣，那就集中 注意力 于矩阵中它所属的列，并在这一列中看 
到纵列数宇，每一个数字对应一个个案。在上章(彳求日裁判书》 
的例子中，有一纵列关于需纳税的土地面积的数字，每个数宇 
分应一个釆邑。若如上章所示，我们考虑的仅是几个个案，那 



4 我们可以不很费力地了解有关每一采邑需纳税土地方面的 
信息。然而，如果我们在分析更多个案的资料，例如50个采 
邑，那我们就需从一个长得多的数字纵列 (如表 3.1 所示）中 
了解和吸收信息。面对这样一张表，我们很难略为清楚地辨 
别出它所包含的信息的主要特征》我们不容易把50个或者更 
多数字所包含的信息吸收进我们的脑中。 

因此为了吸收大董资料，我们需要以某种方式对资料加 
以概栝，使它们的主要特征以一种便于记忆的方式示现出来。 
这样做的最筒单方法，作为第一步，就是统计每一值在数字纵 
列上出现的次数。当这样做时，实质上我们是在重新整理资 
料 f 在原始的资料矩阵，如表 3.1 中的列向量，变量的值是 
以最初收集资料时个案在矩阵中出现的次序如以整理和排列 
的。而现在，我们改按个案所对应的变量值来整理它们。我 
们分布个案来显示各特定变量值出现的頻数，因此对资科的 
这种重新整理被称为频数分布。 

作为一个例子，我们来思考一下在对表 3.1 的资料进行 
分析时可能出现的问题。此表显沄埃塞克斯郡50个采邑林地 
的牧猪数目，它们是1086年《末日裁判书》所记载的一部分_ 
实质上，这些信息渉及的是这些釆邑中的林地数董1《末曰裁 
判书》的编驀者并未正规地给出林地面积数，而是计量了能够 
养活牧猪的头数。正如达比教授所说，这些数宇不一定反映 
在林地中牧猪的实际数目 * 猪在这里仅被作为一种计量单 
位， 0) 知道了这点，我们可以见到表 3*1 为1086年埃塞蒐斯 


①： h. c. 达比：以束日裁判书>时代末英格兰地理 》 ca. c. o^tbcsr ， 
ijomesday Geography of Btatem 瓦 ngland) ， 剑桥年’第 233 页^ 



郡林地和森林面积提供了有用的证据 0 但如表现 在所滾 ，人 
们难以理解这信息。通过此表，我们无法了解到有关诸如每一 
地区林地分布时情况，以及是否存在某一块大家都不用的沐 
她。为得到这类信息，我们需要对此表加以概括，把它所包含 
m 信息变成一张易于处理的表格。 

表 3.1 埃塞克斯郡林地， 1D 时年 


的代猪表数林目地面 


里特尔 （ Writtl 句 

120f) 

克拉弗林 

600 

法恩哈姆 （ Farnhara^ 

150 


ro 

乌格莱 (Ugley) 

160 

阿尔费勒斯同那 

350 

肯菲尔待 (Canfield) 

120 

邓莫 （DuxLmaw > 

300 

伊斯顿(: 

150 


4Q0 

” tf 

150 

拉希莱 （ L&plikiy) 

60 

撖克斯蒂 (muted) 

800 

亚特菜 (Yarciley) 

30 

赫沙姆 〔 He rsharri ) 

30 

哈林伯里 （ HaIU]i^hLtry) 

100 

芬钦菲尔特 ( g fie l d ) 

5 


30 

海廷哈姆 (Hedin gliam ) 

eoo 


160 

海尼 (Henny) 

30 


20 

乌布尔斯泰 〔 Maplestead) 

60 

tf JCF 

15CK 10) 
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续表 


地 区 

1 明 6 年代表林池面 
积的猪数巨 

波尔海 (Pdhey) 

40 

萨林 （ Saline) 

200 

斯丹斯待 (SUnst^d) 

400 

苇瑟斯菲尔特 (Wettersfield) 

600 

威克姆圣保罗 （Wickliain St. Pauls) 

30 

伊斯特伍德 (Eastwood) 

m 

安伯登 （A Jnberdjen) 

200 

伯钱杰尔 (Birolianger^ 

50 


30 

尨尔森哈姆 （ Elaenham) 

1000 

坪弗隆沃尔登 (Saffron Walden) 

800 

” J? 

30 

塔克莱 CTakeley) 

600 

桑特莱 (Thu-nderley) 

600 

威克姆蓬亨特 (Wicfcliam Bonbunt) 

80 

溫比希 CWimbieh) 

60 

菜厄 (Layer) 

4C0 

7f ” 

60 

科格沙 （ Coggeshall) 

30 

布拉克斯蒂 (Braxtod ) 

500 

诺待 莱（ ^^1 呼） 

80 

i， ， 

30 


200 

n ，， 

100 

里文哈尔 （ 见 venliair> 

350 

未特別指明的拜斯特勃尔亨特赖特 

56 

(Barstablc Hundred) 
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资料 来源： H. a 达比末日裁判书 > 时代东英格兰地理 > (H T O. Barby, 
THie T)omeaday Geography of Eastern : England〉 ，剑桥 ： l»52 年，第 23 S— 2 ST 



我们可以通过建立一个像表 3.2 那样的简单的频数分布 
来开始对表 3.1 进行概括^现在，我们有《个数字，而不是 
表 3_1 中一个数字对应一个地区的50个数字，其中第1列中 
的22个数字表承牧猪数变量的值，第2列的22个数宇表示 
这些值在资料中出现的频数。以表3 j 与表 3.1 相比较，虽 
则我们对需要吸收的信息量有所减少，但并没有简化多少。人 
们仍难于一看就理解它的内容。 


表 3.2 埃塞克斯郡备教区根据牧渚头数的频数分布，约 lose 年 


1 

牧猪头数 

2 

拥有第一列牧猪头数的地区数 

5 

1 

15 

1 

20 

2 

30 

9 

40 

1 

50 

2 

55 

1 

60 

4 

80 

2 

100 

2 

120 

1 

150 

3 

160 

2 

200 

3 

300 

1 

350 

2 

400 

3 

^500 

3 

600 

3 

300 

2 

1000 

1 

1200 

1 


• S3 • 



然而，我们可以建立其他类型的频数分布来进一步帮助 
我们理解这类资料。例如先将变量值编组，再将频数排列起 
来，并将所属个案归人每一组；其结果就被称为一种编组频数 
分布，例子如表3,3和表 3.4 所示。在很大程度上我们可以 
随意选择不同的值的编组 I 若我们要强调个案之间的细微差 
别，可以多编几个组;如我们感兴趣的只是大的差别，则可以 
用少置的编组^各组的大小并不一定要一致，但不一致可能 
引起混乱；除非有某种不可克服的困难，应该用大 / h —致的编 
组。对各组唯一的绝对要求是它们必须没有歧义，即不允许 
发生一个个案应属哪组的争执。因而各组永远应像表 3.3 中 
那样说明19&，200—399等 f 如果它们作0—200， 200— 
400等那样的说明，则不知应把一个捆有200头牧猪的个案 


表 3. 3埃塞克斯郡各教区根据牧猪头数的编 
组频数分布，约 108 S 年 


牧猪数 

地区数 

0-199 

31 

200-399 

6 

400-599 

6 

600-799 

3 

800-999 

2 

1000 -1199 

1 

1200-1399 

1 


放在哪组，因而引起混乱。 

频数分布是一个重要的统计学工具，我们将在下一章里 
回过来对其应用加以较详尽的讨论。现在只需记住，频数分 
布是对资料的一种再整理——个案按照它所具有的变貴像而 
排列。 
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表 3.4 埃塞克斯郡备教区根据牧渚头数 
编组频数分布 ，约 108 G 年 


' 收猪数 

地区数目 

0-99 

23 

100-199 

8 

200-299 

3 

300-399 

3 

400-499 

3 

600-599 

3 

600-699 

3 

700-799 

0 

800-899 

S 

900-999 

0 

1000-1099 

1 

1100-1199 

0 

1200-1299 

1 


3.2 求和记法 

#对计量资料的分析中，我们常想要计算和应用一个数字 
#集的总数。将数字相加得到一个总数，正规地称为“和” 
的过程是大家熟悉的，但是，必须写 出如“ 计算变量值之和”这 
种指示往往显得笨拙。因此，用一个记号作为求和的指示是 
有用的，它也可以在以后的计算中被用来代表总和。 

在求和记法中，希腊大写字母西格马 <23)表示数宇相加， 
而字母上下和右边的其他项说明什么与什么相加以求和。以 
表 H 为例，如我们把牧猪数目的纵行视为一个列向量，并用 
字母：来表示，其值从足直到 X …那么我们可以把这 
—列之和表承为 


^ 35 • 
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2 下面的项6=1，表明 Z 向量的下标纟从1讦始，取值并随 
后取连续的正值 2、3、4、S， 等等。 ：S 记号上面的项表示 i 的 
最后取值，在本例中为50,因为表中有50个个案 5 : S 右边的 
项；，表示要求和的向量。如果我们愿意，可以改变 S 上面 
和下面的项，以表明仅对纵列的一部分求和。比如，我们打算 
从计算中剔除里特尔，克拉弗林，法恩哈姆，里文哈尔，以及拜 
斯特勃尔亨特赖特中“未特别指明的”采邑，就可以写出下面 
的式子来表达对其他采邑的 求和： 

4S 

它指示我们£从5开始取值，随后连续取 JE 值至48求和，从 
面剔除了纵列中最前面的4个和最后面的2个个案。 

对包含任何个案数目的一个纵列，指示的一种有用的普_ 
通形式是把其个案数目称为I，并把求和指示写为， 



有时我们想要不仅得到一个向量的总数，面且还要得到 
一整个矩阵的总和。当我们按两种方式对资料集进行分类，面_ 


表 3.5 1851年中期英伦 H 岛人口估计 单位:干人 



男性 

女性 

英格兰和威尔士 

8,809 

9,174 

苏格兰 

1,379 

1,617 

爱尔兰 

3,181 

3,333 


资料 来源： B, IL 米切尔和 ] P. 迪思卜英国 历史统 计摘要民 R. Mitebell 
find P* TDeaue, Abstract of : British Hiatorica] 剑桥： 1902 年 r 
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构成像表 3.5 那样的资料矩阵时，矩阵总和往往是必不 可少- 
的。为得到1851年英伦三岛人口总数，我们需要对矩阵的所 
有元索 求和。 

如果我们将表 3.5 中的资料用矩阵: T 来表示，就得到一 
个具有在表3 .6 中所显示的元素的矩阵。 _ 

表 3. S 表示1351年中期芙伦三岛人 P 估讨的材科矩阵 

男性 女性 

_ _ B _ ■ ■ ■ _ 

英格兰和烕尔士 ^*1 ^ 

苏格兰 7 31 ^3 

爱尔兰 ^1 


我们可将矩阵 F 中所有元素的和写成 

a 2 
r^i j=t 

这里在具有 s 行和 j 列的矩阵: r 中，第一个指行，第二个 S. 
指列。全部指示因而是对矩阵中所有元素求和。我们将用的 
把元素相加的实际步骤将从彳 =i 和开始，若矩阵以一 
个表来表示，则首先取左上角为元素。然后取 £= i 和 
i=2 的第二个元素 F ia 相加，接着再转向第二行取元素: r si 。 
换句话说，第二个 E 的下标在第一个2下标的每一个连续值. 
菹围内变化。 

求和记法的目的在于简化计算，及筒化对统计学公式中 
数字之和的使用。在把 JT 定义为表 3.1 中所示的列向童后 ，.- 
我们不写“在表 3.1 中所列数目的总和”，而可以只写成 

&o 

实际上，求和记法也常逋过省略下标而进一步简化。比如，当、 
我们想表示向量么之和时，只写而不是 



但重要的是，这样做不应引起混乱，而一般还应使用下捧。 

应该指出，当 S 后带有由括号括起的数字符号组成的顼 
时，它表示该领所包含的是所求之和，直到碰到一个+号或- 
号为止。例如两个等价向量 X和: T 的元素相乘，然后对其 
结果求和 ，可 $成， 



它表示为从1至尼的每一个4值，我们把足乘以 I 并求 
和 & 但如果我们想把其他数加到这个和上，比如55这个数， 


可写成 


^X,F i + 55 


这显示我们要把55加到 jt 与: T 向量的乘积之和上，而不是把 
55加到每一个石与 K 的乘积上，然后求和；如我们要做的 
是后者，应写成 

^(X,r i+ 55) : 

事实上，+号表示求和应停止在什么地方， 

我们可以像使用任何其他代数量那样使用求和记号及与 
它相关的符号。这样我们可写出I 




表示计算完与 K 乘积之和以后，我们用另一个置疋与那 
个和相乘。在统计工作中常遇到的应用求和记法的例子是 




及 


石) 。(足 + Zs + + 了* .+ 尤 a —1 + 叉汉、’ 

在这些例子中，一排点表示应连续对点之前（在上述例子中为 — 
和义)直至数列终点和&>之间的所有值 求和。 

3.3 对数 

$史学家常须计算和分析比例变化；例如，我们可能想荽查 
考英国一个年度与第二个年度的出口变化，把它作为前 
—年的比例或百分比^或某一政党从一次选举到下一次选举 
得票变化的比率。许多诸如此类在第六章中讨论的问題，都 
适宜于利用对数，对数的概念对大多数学习过初等数学的读 
者来说是熟悉的，虽则在电子计算器时代简化多位数运算这 
—对数的主要用途显得不那么重要了。然而，在统计学中对 
数仍十分重要，因此我们有必要先0顾一下对数用法的主要 
特点。 

在统计学中使用两种类型的对数，一种是以10为底的对 
数，另一种是以 e 为底的对数。本书只涉及前者，因为它更为 
常用0我们可以利用本书最后附录里时西位数对数表来查找 
一个数的常用对数。当使用这些对数表时，我们仅取数的前 
四位有效数宇（即第一个数不为零>。对于多位数字，此表则 
有失精确，使用电子计算器可以解决这个问题，许多类型的电 
子计算器只要一揿电钮就能计算对数 o 当然使用四位数对数 
表依然是明智的，因为对数的基本概念及其使用方法在此显 
得更为清楚。 


^ 39 ^ 




s 


例如，査找 104,869.0 的对数，对第5位数四舍五入以 
后，取前四位数就得到 1049 。 此数的前两位要我们去査对数 
表的行，在本例中为行10。第3位数为4，沿着行10査到有 
以 4 为首的四位数宇的那一列；第四位数为 9, 仍沿此行査到 
有以 9 为首的一位或两位数字的那一列。在第四列中我们得 
到 .0170, 在标有 9 的列中得到值， 0037, 两者相加为 .0207。 同 
理，若我们想计算 1272 的对数，可以从对数表的第3行得到结 
果，，1045。 

然而，在査找上述值时，我们仅有这些数宇的对数的一部 
分（称为尾 数)。 此外，我 rr 还要考虑到小数点的位置。为此， 
我们必领了解(如“以10为底”这个名称所隐含着的>10的对数 
是1*000，100(10,的常用对数是2.000,1000(10,的对数为 
3.000，以此类推。因此一个介于10和100之间的数其对数值 
必在1,0000和2,0000之间。在这两个界限之间的精确值由尾 
数给出，如我们已里示过的，査对数表而得。对数中决定小数 
点位置的那部分称为首数，以及它与小数点无关的那部分对 
数，即尾数，一起组成了我们计算中所应用的对数。表3,7显 
沄小数点位置的变化所带来的影响。 


表 3. 7小数点位資对对数 的影喃 


logl272.0-3*1045 
lo g m. 20 = 2,1045 
1 ogl2. 720 = 1.1045 
logX.2720- 0,1045 


1 吨 0.12720 = 1,1045 
logD,0X272 ^2.1045 
]o g 0.001S72^3 + 1045 
logO .0001272 ^4,1045 


考虑小数点位置（从而决定对数的首数）的最简便的方法 
为：考虑在真数得到一个有效数宇之前小数点需向左边移动 
的位数。如在表 3.7 中，我们必须把真数 127.2 的小数点向 
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左移两位才得到 1. 272,因此首数就是 t 与此相类似，对于 
小于1的真数，我们要计算需将小数点向右移动的位数。比 
如，对于 0*0001272, 必须将小数点移四位，因此首数为 L 

确定了我们要用的数的对数值以后，就可以实施我们所 
要做的数学运算了>对此我们即将加以阐述。运用对数进行 
运算所得的答案本身就是一个对数，因此必须通过使用反对 
数表 (见本 书后面所附）将其转换就使我们得到最后的结果 
假设我们的对数值为2.7127。我们取尾数，在反对数表中查 
到标有 0.71 的那一行；然后在有四位数的第3列中找到 
5152;再从有一位或两位数的第7列找到8。5152 4^8 = 5160。 
现在我们得到一个四位数的真数，利用前边得到的有关对数 
首数的知识，我们还必须确定小数点的位置，在本例中首数是 
2 。它告诉我们应从小数点左边只有一个有效数字的位置开始 
把小数点向右移动两位 （在 前面的对数中，需将小数点向左移 
动两位才能得到首数2)。因此，对于 516 C ， 小数点位置应从 
5.160 开始，然后向右移两位，得到 516. 0。2,7127的反对数 
为516.0。 

能用对数进行的运算最容易排列成表，如表 3.8 所示。 

应注意，对数首数上边所置的一小横，如 L 仅表示对数 
是一个绝对值(没有加减符好)小于1的数。在对对数进行运 
算时，我们省略了正负号，仅在运算的最后才加以考虑。如 
2 T 4.6 乘以 - 58. 27,实际运算如表直到计算结束才将负 
号放回所得出的答案-16,000.0。 

本章前三节已讨论为了理解本书后面的内容，必须掌握 
的所有数学运算方法。实质上，想要采用计量方法的历史学 
家必须知道如何加减乘除，计算平方和平方根，以及应用简单 
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表 3.S 对数运算 


运 算 

方 法 

例 子 

S 74.6 X 58.27 

对数相加，求 
反对数 

2 T 4.6 x 58.27 = log (274.6 J 
+ log (58-27) =2.4387 
+ 1,7654-4.2041 
<求反对数 ） p 16000.0 

274.6 + 58.27 

对数相减，求 
反对数 

274.6/58.27= log ( 274,6) 
- log (5 S *27)-2.4337 
一 1.7654 = 0.6733 

(求反对数 ）= 4. 713 

274. 6的平方 

对数乘2,求反 
对数 

24 T .6 2 - Iog (274 X ) x 2 
-2.4387 x 2 

-4. S 774 

(求反对数 ）=75410,0 

求 5 S . 27的平方根 

对数除2,求反 
对数 

V 53-27 - log (5 S *27)/2 
= 1.7654/2 = 0.8827 
(求反对数 ）=7 + 633 

求 0.9854 的平方根 

对数除2,求反 

J 0,9864 = log (0.9851)/2 

于1的数） 

对数 

= 1.9936/2 
-=(2+1.9936)/2 

-1 + 0,9968-1.9968 

求反对敷 = 0.9926 


的矩阵和求和记法。为简化或加速运算，可以使用第九章所 
谈到的计算器或计算机之一 I 它们可以消除很多与手工计算 
有关的困难，但即使应用它们，历史学家仍然必须懂得本章所 
讲的那些简雄的数学运算。一般来说，对方法的选择取决于 
必须实施的运算类型，以及所要求的精确度。如果需要高精 
确度，必须应用手工方法或能够处理太量数据的机械 方法； 若 
经过四舍五入后的四位有效数就能满足要求，那么就可以使 
用对数和平方根表。 
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j L 资料的初步分析 I : 
频数分布法和图表 


^照前几章所讲的方法收集和整理资料后，研究项目的分 

析阶段就可以开始计 ffl 分析的最初阶段因项目和历史 
学家的不同而异，但是不妨说，在初期阶段历史学家需要应用 
" 描述性统计>方法。描述性统计是那些主要涉及资料的组织 
和描述的统计方法；这种统计方法有时常与 4 分析性 p 统计相 
对比，但这样的区分是不确切的，本书不打算使用它。我们将 
讨论的描述性统计学既是对资料分析的一部分，也是更高级 
统计方法的一部分 P 

描述性统计的作用是便于对计量材料的理解 & 它们可以 
帮助历史学家继续他的分析，也可以帮助读者理解分析的结 
果，但两者的目的都是为了获得更多的理解。既然如此，描述 
性统计应根椐它们成功地増强理解的程度来加以评价；所以， 
虽然本章下面讨论的几种应用描述性统计的方法可能便粗心 
大意者发生误解，但是就应用这些方法而论却 兄所谓 正确与 
错误的确有某些只适合干某些特定类型的资料的描述性统 
计 方法； 例如，定序和定名资料就不能计算乎均数，但除了这 
些例外，我们应只着暇于哪些方法能最清晰地阐明我们最感、 
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兴趣的那些资料的特征来选择表述我们的材料的方法，也郎 — 

我们所用的描述性统计。 

应该强调栺出，描述性统计方法不仅在呈现结果时有用， 、 

而是在分析的每一阶段都有 用的， 画一张曲线图，只需几分 
钟的工夫，或许能一下子显示出资料的某些方面，面当历史学 < 

家只是对着一张数字的表格看时是根本看不清的 D 

表 4. 1所示是资料被收集后未经任何重新整现或统计学 \ 

上的处理的一个资料矩阵的某一典型部分。表4,1中的资料 
集由1907年英国商船队中约25艘船的有关数据组成> 每一 V 

只船都标有“官方号码”（一个独特的识别号码，就像每辆汽车 
都有自己的号码牌照一样）。表 4.1 按列的次序包括每一个案 " 

的识别号码，两个定名变量，和两个区间变量。表内没有任何 
定序资料 t 在历史研究中极少遇见定序资料，因此没有必荽详 、 

细地考虑它们的范例。每当一种特定类型的统计方法适用于 
定序资料时我们会提到这一情况 t 有关定序资料更为详细的 4 

讨论请参阅为社会科学家编写的统计学教材。 


4 1频数分布 


在 



法，即频数分布。我们说明了频数分布基本上是将资料 


矩阵或矩阵中的个别列重新整理成一种使它所包含的信息更 


容易被理解的形式。重新整理可以仅渉及以一种新的方式安 
排个案，也可以按照个案的各种变量特征的值进行编组。频 
数分布可从定名资料、定序资料，或区间资料中建立 & 作为例 


子，我们将应用有其动力方式的资料-神定名变量，及有 
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S 4.1 25 艟英国商船， 1307 年 

官方号码 贸易对象~ a * ~船员人数 



1697 

国内 

未知 

44 

3 


2640 

国内 

未知 

144 

e 


B 5052 

国内 

未知 

150 

5 


62595 

国内 

风帆 

230 

8 


73742 

国内 

蒸汽 

739 

16 

J 

S 665 S 

国内 

蒸汽 

970 

15 


92929 

匡际 

蒸汽 

2371 

23 


93086 

匡内 

蒸汽 

309 

5 

/ 

94540 

国陡 

蒸汽 

679 

13 


95757 

国内 

风帆 

26 

4 


66414 

国际 

蒸汽 

1272 

19 

► 

99437 

国际 

蒸汽 

3246 

33 


99495 

国内 

蒸汽 

1904 

19 


107004 

国内 

蒸汽 

357 

10 


109597 

国内 

蒸汽 

1080 

16 


113406 

国内 

蒸汽 

1027 

22 


113685 

国内 

未知 

45 

2 


1136 S 9 

国内 

未知 

62 

3 


114424 

国内 

风帆 

68 

2 


114433 

国际 

蒸汽 

2607 

22 


115143 

国际 

凤帆 

133 

2 


115149 

国内 

蒸汽 

502 

IS 


11&357 

国内 

蒸汽 

1601 

21 


118 S 52 

国际 

蒸汽 

2750 

24 


123376 

国内 

蒸汽 

192 

9 


资枓 来源： 稃据船舶和海员登记总署的船员 清-单 & 

关船员数目的变量-种区间变貴。 

资料矩阵中的第3列动力方式，是一个定名变量，可以取 
蒸汽，风帆和未知三种值之一。所以，根据此变量建立一个频 
数分布，只霈计算在资料矩阵第3列中每一类型的动力出现 
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的次数，然后将结果组成一张新表，如表 4.2。 



表 4.2 

表第 3 列资料的频数分布 


动力 

船数 


风帆 

4 


蒸汽 

16 


未知 

5 


总计 

25 


请注竞，我们在表标题上说明本表所含资料的来源。为有助 
于准确性及理解，我们还给出了表中个案的总数 。 

相对于动力方式的三种可能值，区间资料变量，船员数 
<表 4.1 中第 5 列〉， 从理论讲有很多的可能值。那个时期某 
些商船上船员人数迖儿百人之多，可是在我们的案例中船员 
数目仅力2 — 3%因此可将我们的频数分布限定在这些值内。 
即使有了这个限定，若我们模仿表 4.2 的方法就会得到一十 
有 32 个可能值的表，其中大多数在第 2 列中的值为零。因此 
为简化和压缩频数分布，我们将値进行编组并计算出属于每 
—组的个案数。结果如表4.3„ 

又要注意到，表 4*3 第1列中各编组规定得不可能产生 
—个个案究应属于一个编组还是属于另一个编组的混乱 I 如 
各组按 Q — 5, 5—10,10— 15等等规定，就会发生混乱》 

表 4.3 的建立立即使我们对资料有了一个比我们会从表 
4.1 的一堆数字中所能获得的清晰得多的概念。如果愿意，我 
们还可以建立其他类型的频数分布，用以阐明资料的某些个 
别的特征。百分比频数分布是一种常用的频数分布，适合于 
所有类型的资料 # 在这类表中，频数不用绝对数来表汞，即^ 
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表 4.3 根据表 4.1 笫5到中资料的编组频数分布 


船员 A 数 

船数 

0-4 

6 

5-9 

5 

10-14 

2 

15-19 

6 

20^24 

5 

25-29 

0 

30-34 

1 

共计 

25 

每一频数出现的次数，而是按所占个案总数的百分比来表示。 
表 4.4 和表 4.5 就是这类百分比频数分布。在每种情况里，表 

中项目的总数都是100。 


表 4. 4根据表 4.1 第 S 列资料的百分比频数分布 

动力 

占商船总数的百分比 

风帆 

16 

蒸汽 

64 

未知 

20 

总计 

100* 


* 个案总数力 


在建立百分比频数分布时，需要适当注意^百分比本身 
就是一种描述性统计，如果个案总数很小，百分比会给人一种 
错误印象;如果情况是这样，那么觝数的很小差别可以由于斧导 
换成百分比而被扩大。因此永应给出个案的总数，如表 4.4 
和表 4. 5,使读者能将百分比转換成绝对数，如果他要这样做 
的话。 
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表 夂5 根据表 4.1 笫5列资料的百分比编组《数分布 


船员人数 

占商船总数的百分比 

0-4 

24 

5-9 

20 

10 -14 

8 

15-19 

24 

20-24 

20 

25-29 

0 

30 - 34 

4 

总计 

100* 

* 个粜总数为25。 


累积频数分布和累积百分比频数分布，是有时有用的親 

数分布亚型，虽则它们只适用于定序和区间资料。当需要了 

解有多少个案是在某些特定值之上或在其下时，上述方法是 

有益的。例如表 4.6 和表 4.7 所眾。 

表 4. S 根据表 4.1 第5列资料的累积编组頻数分布 

船员人数 

商船数目 

4或不到 

6 

9 或不到 

11 

^ 14或不到 

13 

拍或不到 

19 

24或末到 

24 

如或不到 

24 

34或不到 

25 


注意在表 4.6 和表 4.7 里没有给出总数，因为不言而喻 
颜数列中最后一个数字必然是个案总数，亦即在百分比分布 
中为100。 







表 4_7根据表 第 S 列资科的 S 积编组百分比颊绫分帘 


船员人数 占商船 总数的百分比 


4或不到 

24 

9或不到 

44 

U 或不到 

52 

19或不到 

76 

24或不到 

96 

29或不到 

96 

S 4^ 不到 

100* 


* 个案总数为2匕 


4.2 交叉分类 

#今为止我们讨论了在资料矩砗中的这列或那列里运用频 
@数分布对资料进行概括。我们坯可以使用类似于建立频 
数分布的方法，在不止一列里对资料进行概括。其结果就称 
为交叉 分类。 

表 4.8 是最简单的交叉分类形式，其中一个定名变董(动 
力）对照一个区间变量（吨位）进行分类。像表 4.8 这样的表有 
时也被称为根据第3列和第4列所制的表。 

对表 4*1 中的所有变董都可进行类似的交叉分类，依照 


表 4. 8根据表 4* 1第4列及第3列资料的交叉编组 



动力 

吨位 


风帆<4艘） 

468 


蒸汽 （16 艘） 

21406 


未知 （5 M ) 

445 


总计 (25 般） 

22319 
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所涉及的资料类型和每一变童的可能值的数董， 蒋其 结果置 
于不冏的表格形式之中。表 4.9 被称为列联表，表中的记录 
示对应小标题下所示值的个案出现的次数。因而列联表可 
以被看成是按苘种或更多方式进行分类的频数分布。 


- 表 4. 9 根据表 4.1 第 2 列和第 3 列的列联表 


动力 

贸易对象 

- 总计 

国内 

SP 节 


3 

i 

4 

蒸汽 

10 

6 

16 

未知 

5 

■J 

5 

总计 

IS 

7 

25 


正如我们可以有百分比频数分布一样，我们也可以建立 
百分比列联表，如表 4. 10。在表 4*10 中，表 4.9 的每一个记 
录都以商船总数的百分比来表达。如我们想要阐明资料的某 
些特征，也可以建立百分比列联表，其中的记录不是按照总计 
(在本例中为 25 >的百分比，而是按照某些编组 1的个案总数的 
百分比来计算。表4 . 11就是这一神方法的例子。 


表 4. 10稂据表 4.1 第2列和笫3列的百分比列联表 



动力 

贸易对象 

_ 二 4i 





•rr 

风帆 


4 

16 



蒸汽 

40 


64 



未知 

£0 

0 

20 


厂 

总计 

72 

28 

ICO * 

' 


* 个弟总数力25 & 
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在表 4*11 中，表中的记录以列总数的百分比来表示；而 
并未给出行总数，因为它 a 毫无意义。作为另一种办法，也可 
以计算行总数的百分比，在这种情况下则不给出列总数 。注 
意，相除和四舍五入的过程中在第 i 列造成了一个稍微超过 
100 的总数。 

也可以建立对3种或更多变量加以概括的表，但这样做 
的危险在于表会像原始资料那样模糊不清和难以解释。除非 
有某种特別的理由，汇总表应限制在仅有1个或2个变量的 
资料上。 


表 4. 裉据表4 + 1 第2列和第 3 列的百分比列联表 


动力 

贸易对象 


国内 

国除 

M 帆 

16.7 

14,3 

蒸汽 

55.6 

85.7 

夬知 

27,8 

0.0 

总计 

300.01 

1 GO . OO * 


* 个案总数力班。 


我们介绍了表—表 4 . 11而并没有对一种制表方法相 
对于另一种制表方法的优点，或对每一种方法所揭示的资料 
的具体特点加以评论。然而，应该清楚的是，每种方法都揭示 
资料的不同侧面！如表 4.4 表明将近三分之二的商船以蒸汽为 
动力，表 4.7 表明在一半以上的商船上船员人数不超过15人， 
表4,9则告诉我们从事对外贸易的商船中仅有1艘为风帆船。 
资料的所有速些侧面对一个致力于商船史的研究者来说都是 
有价值的；仅靠査看表 4.1 中未加处理的资料矩阵，没有一个 
侧面会立即显露出来。因此，实际中选择采用哪种制表方法 
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取决于人们探讨资料的哪一侧面（而在某种程度上也取决子 
资料是否按定名或区间标准分类夂 


4.3 图表 

#这一章里我们集中于运用列表方法来呈现资料的讨论。 
#存在着许多其他呈现资料的方法 I 特别是我们可以用某 
裡形式的图表来呈现资料。许多人发现如果把证据以某种方 
式的图表浍制出来。那么它的多重含义就更容易为人所了 
解。因此，描述性统计学的图表方法在呈现分析的最终结果 
上特别有用。而且，处理计量材料的历史学家可以从在分析 
的预备阶段以图表方式表达他的结果中得到 好处。 以这种形 
式表达的资料可能显示出历史学家始所未料的类型，而这可 
能导致进一步分析的设想 & 

呈现定名资料（如果要的话，也可以用于定序和 E 间资 
料）最普通的方法是运用条形图，如图 4.1 所示^在此图中， 
我们用商船动力方式表示的航运例子的资料以条形图的形式 
来予以呈现。称为条形图中的条子彼跎完全分离，以强调我 
们在绘制的是定名资料，各类之间没有定序或 E 间关系这一 
事实^由于所绘制的是定名资料，沿水平轴的条子的次序无 
关重要；即使把它们打乱，也不会损失或改变所要呈现的信 
息。另一方而，如果所绘制的是定序资料，虽非绝对必要，但 
按常规要把各条形按类或变量的次序沿水平轴排列。并请注 
意，个案据以分类的变量（图 4*1 中为动力方式）应沿条形图 
的水平轴标绘。在条形图中，沿垂直铀显示分类变量，面沿水 
平轴显示条形并非错误，但通常条形是沿垂直铀显示的，如图 



商船数 


25 - 

20 - 

]5， 

10 - 


0 



图4,1 根据表 4.1 第3列资料的条形图 


4* 1所示。 

如果要绘制的是区间资料，那么我们也可以用条形图的 
形式来呈现之，但用直方图则更为正规，如图4.2。由于是 K 
间资料，资料值就不像图 4.1 中那样彼此分开，而是显沄为沿 
水平轴依次相接。在本例中，分类变量（船员人数）的不同值 
不仅像在条形图中那样以条的高度来显示，而且以柱的面积 
来 显示； 因此，重要的是直方图中每一柱的宽度应保持一致， 
以便面积与所呈现的频数成比例。否则会给人以错误的印 
象。 


区间资料也可以用图解形式来呈现。图 4.3 表明怎样把 
表 4.1 屮关于船员人数的资料用图表沄。我们取船员人数的 
各个编组，即资料据以分类的变童，并把这些沿水平轴显示 j 
各船员人数编组出现的频数沿垂直轴显承。这种图实质上是 
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—个简单的编组或未编组的频数分布的图解表格。 

当区间资料被制成图时，也通常对图表的形式略加改动， 
将图上各点连结起来，造成有时所称的一个曲线图。理论上， 
我们只应把图中各点连结起来，从而给人一种变量具有连 
续性的印象——如果我们准备作这样的假设，即变量实际上 
是连续的，意谞在理论上变量可以取任何值 。这 类假设常可在 
涉及科学资料的案例巾作出，例如温度和距离都属于这一类 
型的变量，另一方面，大多数历史资料是菲连续性而是分立 
性的;变量的可能值呈阶段性变化 D _，若我们衡量人 U 总 
数，就必须按1个人的倍数来衡量；而不能像对气温的度数或 
距离的公里数那样细分 & 另外，很多历史资料虽然在理论上 
是连续的，然而由于计量的不精确在实践中却并非如此。这 
方面的例子如人的年龄；我们很少知道我们所研究人物的精 
确到天数的年龄^尽管从理论上讲如果有更多的信息我们可 
以做到这一点。 

由于所描述的大多数历史资料无论从理论上还是在实践 
中都是非连续性的，似乎我们不应正规地利用曲线图 。然而 ，事 
实上由于运用曲线图所获得的理解是如此之重要，以致我们 

能感到完全有理由应用它们，常记住我们必不能把资料看成 

|_ 

具有连续性。作为一个例于，我们 HI 以研究图4_4,一个根据图 
4*2 制成的线图。先看图中标有 A 的点，它位于水平轴上标有 
5_9那一点之上，亦处于相对于垂直轴上标有5的水平线上。 
显然 A 丧东有5艘船的船员人数分别为5、6、7、8或9。图中 
B 点处于与 A 点相同的水平线上，但是它处于介乎水平轴上 
标有 10-14 和 15- 19的两点之间的垂直线上。因此它不代表放 
在图下面的船员人数的频数分布编组中的任何一组。我们不 
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能说有 S 艘船的人数在 10-14 和 15-19 之间的某处，所以 B 点. 
毫无意义。 

曲线图在呈现时间数列资料方面对历史学家特别有价 
值，因此我们还得回过来讨论它。 

当资料是定序或区间类型时，我们也可以应用图解法来 
呈现交叉分类的结果。我们通过建立一神在统计分析中相当 
重要的图解，散点图，来这样做。图 4.5 就是这样一个散点图， 
其中显示一神对吨位和船员人数所进行的交叉分类。 m 中每 
—点代表一艘船，点的位置由船在水平轴上的变童值（吨 位〉 
和在垂直轴上的变量值(船员人数）来确定。在本例中，由于 
只涉及两个变量，哪个应表汞在水乎轴上和哪个应表示在垂 
直轴上不成多大问题 a 

在绘图时有一些基本原则，如果忘记或忽视它们，可能导 
致解释上的严重错误。图 4. S 盤眾，通过加长或缩短图的任何 
一轴，我们怎样会以导致误解的方式呈现资料，不是突出就是 
低估波动 f 为了避免这样，常用的粗略办法就是阖的垂直轴应 
为水平轴长度的三分之二。其它规则是，应始终给出图中时 
零值，以及应沿着轴把区间明白表示出来。总之，我们应以这 
样的方式建立图表，即它能眵清楚地显示出我们想要突出的 
资料的特征，而不是采取令人误解时方式， 


4.4 比率 尺度圈 


在 


上一节我们所描述的所有阌中，尺度都建立得使水平轴 
和垂轴上每一类都具有相同的间隔 a 若我们以表乐1770 


一 1800年间英国进口原棉情况的表4_ 12和图 4*7 作为一个 
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绞 4.12 1>70 — i30G 年间英国原棉进口的重鼠 


进口量 年份 进 as 

_ t _ 


3612 

1786 

19475 

2547 

17S7 

23250 

5307 

17S8 

20467 

2906 

17B9 o 

32576 

5707 

1790 

31443 

6694 

1791 

^8707 

6216 

1792 

34907 

7037 

1793 

19041 

6569 

1794 

24359 

5S61 

1795 

20401 

6S77 

1796 

32126 

5109 

^ 1797 

23354 

m23 

1798 

31881 

973Q 

1799 

43379 

11482 

1SOO 

56011 

18400 
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£rici P. Deane: Ahslra^t of EritisK Historical Statistics), 剑桥：剑辟大学 
筚版社， lses 年，访 ] 77 — its 页 3 , 
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图 CS 改突轴的长度及两说图区间宽度的影响，根据 
表 4.1 筠 5 列的資钭 
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进一步的例子，我们见到 1772 年进口原棉 5 ， 307,000 磅， L 773 

年进口 2,90 S ，000 磅-'年间下跌了 2,401,000磅。在以 

后的一个时期，即 1790—1791 年间，、原棉进口从31,448,000 
磅减至28,707,000磅一下跌了 2, 5 631,000磅。在这两个案 
树中绝对的下跌值相近似，2,401,000磅和2,631,000磅、，因 
此在图 4.7 的垂直轴尺度上这两个下跌值表示得几乎相等。 

然而，在历史研究中，我们常对两个时期之间的相对变化 
比对其绝对变化更感兴趣。当我们涉及诸如变化很快的英国 
工业革命时期或涉及像棉花加工对英国那样重要的产业的迅 
速发展时尤为如此。我们常想要考虑相对増长，比例的或百分 
比的变化，并比较不同时期的百分比变化；如果我们以 1772 — 
1773 年和 1790—1791 年的原棉进口为例，便会发现 1772— 
1773 年的进口下跌了 45.24%, 而 1790—1791 年仅下跌了 
我们不可能从像图 4*7 中得到这种信息，因为那张图 
是以同等的绝对变化来表示，而不管百分比变化曾是怎样。因 
此我们如对用®来表示百分比变化感兴趣，就需要找到另一 
种形式的囝。事实上我们需要一种容易绘制的图，它沿着水 
平铖和垂直轴给出变童值 <这样如果霜要就能计算绝对变 
化），而且按图中相等尺度的区间来表示比例或百分比变化》 
我们能应用通常基于对数的比率尺度来达到此目的 I 

从上一章中知道，以10为底的对数具有这样的性质，即 U 
的对数为 1.0000, 100的对数为 2. 0000^1000的对数为 3.0000* 
从10至100,亦即增长了 10倍，用对数表示就是从1000增至 
2 .0000,差分为 1.0000 a 同样，从100到10加的10倍增长在对 
数中也用差分1_0000来表眾，尽管从 10 G 到1⑽0的绝对变化 
<1000- 100 = 900) ftlp 到 30 的绝对变化 （ 1QO -10 = 刖）大得 
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多 


因而对数有这样的性质，即相同的比例变化可用对数中 
相同的绝对变化来表示，我们希望在图解方法中具有这种性 


质。因此如果我们将表 4.12 中的每一个值都转换成对数值肜 
式，并将结果标绘在一个垂直轱 a 眾对数的圈中，那么我们 
就已达到了表示比例变化这个重要目的。图 4.8 就是这样的 
图。 

然而，将表 4.12 中的每一个值都变换成对数值仍然是一 
项很麻烦的操作，况且这样做时我们亦失去了在图中嚴示康 
始值的能力。为了从图中便能找到原始值，我们需用反对数 
表。运用像图 4*9 那祥在图中设置的尺度便可以克服这些因 
难。图 4. 9 中尺度上的值都是原始值，而尺度上各点之间的距 
离表示这些值的对数差分。比如，在尺度上 500 万至 750 方 
(增长 比例为 50 凫) 之间的距离与具有相同增长比例的 1000 万 
至 1500 万之间的距离相等。 

虽然绘制这类比例尺度很容易，但是钧买印有对数尺度 
的绘图纸却更为方便^然而在买这些绘图纸之前，我们需要 
、预先了解所要表示的值域。对数按周期排列 .0000— 2,0000 
是第一个周期 ,2.0000 至3_0000是第二个周期，以此类推，而 
绘图纸是为表示1个， 2 个， 3 个或更多的周期而设的。假如 
我们想要在图中包括 3—1750 的资料，就应购买设有4个周期 
、的绘图纸 tl -10 (Iog 0*0000—1.0000), 10-100 (log 1*0000— 
2,0000)^ 100-1000(10^ 2*0000—3,0000), 1000- l 0000( Iog ： 
3.0000—4.0000)。 

还应指出，图 4.8 恰当地被称为半对数图，因为只有1个 
轴上标有对数尺度；用对数尺度标绘时间变化通常没有什么 
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意义。若我们打算为2个对应的变童绘图，弁考察每一变量 
的比例变化时 i 可以用对数图，在其中两种尺度部用对数标 
记 I 这种绘图纸也能买到。 

对半对数图和对数尺度图的解释需要谨慎，因为我们的 
眼睛习惯于具有相等区间尺度的图。应记住，我们要特别注 
意图中两点间连线的斜度:斜度越陡比例变化越快。在第六章 
讨论时间数列资料时我们将再来谈谈对数图和相关的对数变 
教的进一步应用。 




资料的初步分析 II : 
概括性方法' 


章讨论了可以用来对一个原始资料矩阵进行重新整理 
和呈现，以増加我们对资料所含信息的理解的一些方法。 
虽然在建立编组频数分布时也曾试图对资料加以概括，但对 
從并未进行得很深入；我们仅把资料归并为较少的几类。随 
滢频数分布的编组数的减少，资料亦丧失其一定界限，因此这 
鉀方法也不可能推行得过于深入。如杲我们只想得到1个能 
究分微栝资料的数宇，那就不可能使用频数分布；因为只有1 
+编组的频数分布仅能告诉我们资料矩阵中的个案数。 

因此在这一章里，将讨论对我们已遇到过的不同类型的 
资嵙进行概括的其他方法。应该指出，我们将把迄今在说明 
中所用的次序颠倒过来，从适用于区间资料的方法开始，然后 
為转向1合于定序和定名资料的概括性方法 & 

S .1 算术平均数 


# 术平均数方法就是一种将使我们能计算出1个数目来表 
示或概括一整集数目的方法9算术平均数更以“乎均数 p 



著称，但这种说法易引起误解！下面还要谈到其他种类的平均 
激，所以还是力求准确并应用“算术平均数”这个名称为好。这 
郝方法仅适用于区间资嵙。 

将一纵列中的数目累加起来再除以个案的数目便很容易 
算出算术平均数。例如，根据表 3.1 中的资料，表里给出的牧 
猪总数是11,915;有50个个案，因此算术平均数为11，915/50 
- =238. 3头牧猪，我们很容易运用求和记法并以符号 X (读作 
X 横）来指示向量 X 的平均数，其公式为 



(可能有人异议，在表 3.1 中的资料中，似乎牧猪数目总是四 
舍五入到最接近于 h 在这类案例中，平均数的计算可 能有倫 
差，但是四舍五入到最接近于5而不是更大的区间，误差很可 
能不大，计算平均数的程序完全可以接受 h 

从已经重新整理成频数分布的资料而不是原始资料中计 
算某些资料的平均数常是合适的。这种计算只是稍微复杂一 
些，然而它所花费的额外工作因个案数目较少而得到补偿。对 
一个频数分布计算平均数，需用频数分布的每一个值乘以它 
所对应的频数，将其结果求和，再将总数除以原始资料屮的个 
案数目。例如表 5.1 即是计算表 3.2 资料的平均数 D 其结果 
238. 3恰恰与用原始数据得到的结果相一致 3 在一般情况下， 
一个频数分布的平均数由下面的等式得出 

-- 

A N 




表 5,1 

根据频數分布计算平均数 


坎猪头数 X* 

地区数 A 


5 

1 

5 

15 

1 

15 

20 

2 

40 

30 

9 

270 

- 40 

1 

40 

50 

2 

100 

55 

1 

55 

60 

4 

240 

S0 

2 

160 

100 

2 

200 

120 

1 . 

120 

150 

3 

450 

160 

2 

320 

200 

3 

eoo 

300 

1 

300 

350 

2 

700 

400 

3 

1200 

600 

3 

1500 

600 

3 

1800 

800 

2 

1600 

1000 

1 

1000 

1206 

1 

1200 


N — 50 

11915 

_ 咖, 5 



(这里 A 是编 组数) 




这里， I 是变量的值， 名是 这些值出现的频数， it 为编组 
数，而则是编制频数分布所依据的个案数目。 

在表 3.2 中，有关每一教区牧猪数目的资料被呈现为一 
个频数分布，但未对资料进行槪栝。然而在表 3.3 和表 3.4 
中，资料被归并成组或类，这种类型的频数分布因而被称为 S 
组频数分布。当有必要根据这类编组频数分布来计算平均数 
烕其他统计量时，需要一不同的程序，这种程序考虑到给出的 
不再是资輯的真值，而仅是它们所属编组这一事实。 

为从编组资料中计算平均数，我们假设每一个案处于它 
所属编组的中点 a 为了计算出这个中点，我们必须仔细地检 
查曾经用过的编组方法。例如，在表 3.4 中我们把编组规定 
为 0— S 9 头牧猪，100—199头牧猪，等等。这样做时，我们并没 
有考虑到当碰到一个具有 99*7 头牧猪的教区时该怎么办 j 由 
于 0.7 头牧猪是一个没有意义的数量，我们不需考虑这种可 
能性。但是，假如我们使用其他资料的话（如《末日栽判书》中 
有关教区土迪面积的资料>，可能会发现一个拥有 99.7 英亩 
土地面积的教区，把这个教区分配到任何一个编组都会成匁 
问题。通常我们将数字四舍五入到最接近的整数，以此将面 
积为99, 99，1， 99.2, 99. 3和 99. 4英亩的土地都归于第一编 
组 （0—99 英亩），而将99,5, 99-6, 99.7, 99.8 和英亩盼 
土地则归于—199英亩那一编组。因此，任何低于 99*5 英 
亩的土地都被归属于较低的编组，而任何髙于的 .5 英亩（包括 
恰好为 99.5 英亩）的土地则被归属于较高的编组。而而虽则 
在表 3.4 中我们规定各编组的范围是从0—99和100—199, 
而实际在 -0.05 — 99. 5, 99.5—199.5 等值之间；由于这个原: 
闼,这些组的极限值被称为“真极限\与 "规 定极限 " 相对 >，而、 
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在针箅编组親数分布中编组的中点时采用的就是这些 t 真极 
限％回到表 3.4 中的资料，我们便可以再现具有真极限、说 
明极限和编组中点的表格表 5.2 以实例说明了根据这类编 
组频数分布计算平均数的方法。 


表 5,2 根据编组频数分布计算算术平均数 


牧猪数目 
規定极限 

牧猪数目 
真极限 

编组中点 

个案教 

U 


0-99 

—0.5-99+5 

50.0 

23 

1150 

100-199 

99.5-199.5 

150,0 

S 

1200 

£00-299 

199.5-299.5 

250-0 

3 

750 

300-399 

299.5-399.5 

S 50.0 

3 

1050 

400-499 

399,5-4 S 9.5 

450.0 

3 

1350 

500-599 

499.5-599.5 

550,0 

3 

1653 

600-699 

599,5-699.5 

650.0 

3 

1950 

700-799 

699.5-799.5 

750,0 

0 

0 

800-899 

799.5-899-5 

850.0 

2 

1700 

B 00- S 99 

899.5-999.5 

950.0 

0 

0 

1000-1099 

999.5-1099.5 

1050,0 

1 

1055 

11 D 0-1199 

1099*5-1199,5 

1150.0 

0 

0 

1200-1299 

1199.5-1299*5 

1230.0 

1 

1250 


A " = 50 13100 




13100 


N 


60 


= 262.0 


如表5* 2 所示，拫据壤组频数分布计算算术平均数得出 
的结果为 2 62.0。而根据原始资料的全部向量得到的结果为 
23 S . 3 。 正确的算术平均数 238.3 与根据编组资料计算的平均 
数 2 &2.0之间的差，即是我们为应用较为便利的编组频数分布 
在暈终结采的不精确性上所付出的代价。根据原始资料得到 
的平均数与拫据编组资料得到的平均数相异的差距，取决于 




茨际资料与所逸编组的中点相异的程度和范圉而 婭。 逛强调 
了选禪恰如其分的编组的重要性，特别对编组资料的计箅尤 
沟如此， 

与我们将要讨论的其他概括方法相比，平均数容易计算 
并有这个优点，它不仅考虑到一个分布中项目的数量，还考虑 
到每一项目的值。算值平均数的一个相应的缺点是，正是由 
于它包拮每一个值，一个极端值的存在会对它产生相当大的 
影晌。 

让我们以表 4.1 第4列给出的有关25餿商船吨位的资 
料为例 3 商船的总吨位在表 4.8 中算出是22,319吨。 
除以 N 。 M ， 这得到一个892,76吨的吨位算术乎均数。然而， 
其中一艘船的吨位比任何其他船都多500吨以上 （官 方登记 
号为 99437 K 如果我们从平均数的计箅中剔除这搜船，总吨 
位数将减至19,073吨，吨位平均数将降为 794. 以吨^因此，把 
这艘船包括进去很大地影响了平均数。同样，若包括一艘仅 
有26吨的小船(登记号为95757〉也将会使平均数降低许多。 

部分地是由于这个原因，我们需将平均数与其他一些平 
均数从中箅出的资料的值域的测度联系起来，因此我们下面 
就対论这样一种测度，标准差。 

5.2 标准差 

+疑，平均数是概括区间资料最简单和最合适的方法。它设 
%计得将人们的注意力集中于被考虑的一组资料中的所谓 
“集中趋势”上。在仅有2个数目需加计算的最简单例子中， 
我们可以想象有一条线，上面有2个点代表这2个数;于是代 
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表平均数的第三点如图 5.1 所示梅 处宁这 2点之闻的中心泣 
置。 M 始数字用2和1表示，平均数用 Z 表沄。 … 

如果我们在这条线的两端离2和 I 距离相等的相反方 
向 上再置 2个点 ， S 和并考虑结果会怎样，运用平均数作 
为一种概括性方法的主要困难就显承出来丁。现在，让我们 
找出 B 和 F 所代表数目的平均数1由于从』到$和从 I 
到及的所距相等， 很明显 S 和，的平均数也将是 I 。 相类 
似地，如果我们从乂和 I 向中心以相等的距离再置2个点， 
<7和它们的平均数还将是 

A" C" X C A B 

_ _ j ■ B ■ _ - _*_ 

m 5.1 算术平均数的图形表示 

因此，平均数并未指出资料的逐个观察值与乎均数的偏 
离程度。所以如果我们打算应用算术平均敛来概括资料，还 
要运用其他一些方法来描述围绕平均数资料的离中或相异的 
量。做这个的最简单的方法似乎是将毎一观察値与平均数相 
异的量合计起来，这一量被称为每一形成分布一部分的观察 
值与分布的乎均数的“ 偏差' 

然而，这并不是解决表示围绕平均数的离中趋势问题的 
正确方法，因为这种计算的结果总是零。从对囝 s . i 的观察中 
就可以看出，这是由于对平均数的单个偏差将会相互抵销。因 
此，有必要发展另外一种能避免这一缺点的离中趋势的测度 
方法。 

b 

正如_中趋势的测度除了算术平均数外坯有其他方法那 
样，离中趋势的测度方法也有多神。我们将把其他方法放到本 
书的以后部分讨论，而现在只集中讨论最为方便并且最为6 



泛运用的离中趋势测度方法，它就被称为标准差'与平均数 
一样，只有当资料是区间或比率类型时才能计算标准差。 

我们刚讨论过的表示离中趋势方法的困难在于，所有大 
于平均数的观察值都被小于平均数的观察值所抵销。不顾偏 
差的符号，计算其总数，再除以观察值的个数就得到偏差绝对 
值<没有符号的值）的平均数，这样就可以避免上述困难。其 
结果被称为平均偏差，它有时被用于统计，但它也有缺点*特 
别是计算起来很费事，当观察值的数目很大时尤为如此，并且 
不能用于进一步的分析。我们另外可以逋过把每一偏差平方 
去掉偏差的负号来避免上述困难，大家记得，无论是一个 
疋数还是一个负数的平方都将是—个疋数。由于我们感兴趣 
的是围绕平均数的平均离中趋势，我们在计算所有平方偏差 
之和，然后除以项目的数目。对于向量其公式为 

i -r 1 


其结果被称为“方差' 

表 5.3 中，我们取表 3.1 牧猪头数那一纵列的前 1 G 个个 
案为例来说明计算方差的过程。方差虽然容易计算并在以后 
的工作中很有用处 f 但作为一种离中趋势测度方法，它有两个 
缺点。其次要的缺点 是:如 果从平均数得出的偏差值大，对它 
们进行乎方就会便它们变得更大，处理起来就更麻烦。主要的 
缺点在于很难对方差给出一个实际的，而不是数学上的意义。 
充以表 5.3 中的资料为例，说 L 086 年埃塞克斯10个地方牧渚 
头数的算术平均数为 34 S 头十分直截了当：若说这一平均敦 
的平均离中趋势是104,896.0平方头牧渚就没有任何意义。 
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部分地是由于这个原因，部分是由于围绕平均数的离中 
趋势可以用与平均数本身相苘的单位来表眾，我们才应用最 


便利的离中趋势测度方法，即标准差——就是方差的平方根》 
对于向量它是 


N _ 

通常用字母 S 表示。在表 5.3 的例于中 

S= VA04895.0 = 323.9 
表 5. S 方差的计算 



地 区 


牧猪头 

数& 

平均 

数叉 

(Xrx) 

CX 「 X) 

里特允 （ W Hftle ) 


1200 

348 

+ 852 

725904 

克拉弗林 （ C lavering) 


㈣ 

348 

+ 252 

6 S 504 

法恩哈姆 （Farnham ) 


150 

348 

一 IPS 

39204 

法恩哈姆 （Far n liam) 


50 

348 

— 298 

8 SS 04 

岛格莱 （ Ugley) 


拙 

只 48 

一 1 SS 

35344 

阿尔费勒斯匼那 （ Alhrcstuna) 

350 

34 S 

+ 2 

4 

肯菲尔特 〔 Canfield) 


120 

S 4 S 

— 228 

51984 

邓莫 （DunmciW) 


300 

348 

— 4S 

2304 

伊斯顿 （East cm) 


350 

348 

一 198 

39204 

伊斯顿 (Easton) 


400 

34.8 

+ 52 

2704 

A T = 10 

i = l 

--34 S 0 

f ( X ‘ — 幻 = 0 

i 


1048960 

4=1 


1048930 


N 


10 


104896.0 


而因此我们可以说表匕3中资料的标准差为 323.9 头收猪。 
从表5_3中可以看出，为了计算标准差首先须计算平均 



数。我们常需计算平均数，然后再能用上面的公式计算标准 
差 I 但是我们还可以从其他公式直接计算标准差，这些公式都 
是根据榇准公式重新整理出来的。其中最实用的公式是 

它仅包括变量值总和及每一值平方之和的计算。其他的公式 
以及从未编组的和已编组的频数分布中计算平均数的公式， 
在任何统计教科书中都可找到。 

在我们处理区间资料时，计算平均数和标准差有很多优 
点。事实上，算术平均数是本书将要讨论的矣种“平均数中 
最为人所熟知和用得最多的。算术平均数和标准差的主要优 
点往于计算中资料的每一顼都被应用。因此没有浪费任何信 
息；况且，两种方法无论是通过手工还是通过计算机器都容易 
计算 6 正如我们曾经谈到的，算术平均数的缺点在于它对频数 
分布中极端值的存在很敏感，这一点在历史问题中很重要，当 
涉及到财富和社会地位悬殊很大的前工业社会时尤为显著。 
例如，若我们对计算一个中世纪村庄中家庭人口的平均数感 
兴趣，或许会发现由于村里存在着一个城堡，其中住有贵族及 
他的仆人和家臣，这个平均数趋于偏髙；在这个例于中，平均 
数便人对正常家庭人口数目产生错误的印象 & 

这一困难，通常并不像上述例子中那样明显，似乎可以通 
过把标准差与平均数相联系，作为资料离中趋势的测度方法 
而被克服<> 不幸的是，在一个频数分布中极端值——也就是 
与大多数其他值相距甚远的值——的存在也影响到标准差的 
值 。大 家记得，标准差的计算中包括将每一个平均数偏差值乎 
方。尽管我们试图运用开方对此进行补偿，与接近平均数的 
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值相比较，一个远离平均数的值不可避免地要被给予较大的 
分貴€当我们讨论较高级的统计方法时就会知道，这一点并 
非总是缺点，但是当算术平均数和标准差被考虑作为概括性 
方法时，我们要时常记住这个困难。在本章的以后部分还要讨 
论集中趋势和离中趋势的其他测度方法> 应用其中的某些溉 
度方法有助于解决这一困难。 


5.3 


几 


几何平均数 

何平均数是仅适合于区间资料的第二种平均被，除了在 
经济学和经济史的问题中，它很少被应用。对于一个总数 


为 W 的向量 X ，计算几何平均数的公式是 


VC(^,) (^ 3 ) (X a ) … (^)3 

换句话说，我们将所有瓦个 Z 值相乘，再开及次方。在实践中 * 
我们可以应用对数，将所有況个 Z 值的对数相加，其结果除以 
再取反对数。在某些情况下，尤其是处理指数及要找到在 
一个变量或许多变量中的相对变化的平均数，如想找到若干 
增校率的平均数时，几何平均数是最合适的测度集中趋势的 
方法。与算术平均数相比较，它往往给概端值以较小的分量， 
伹没有任何离中趋势的测度方法直接与它相联系。 

5.4 中位数 

三种集中趋势的概栝性方法为中位数，它可以用于定序 
%或区间资料的计算。像下面的众数一样，中位数的计算十 
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分简单；它只是将一个有序排列的个案分为两半，并使小于中 
位数值的个案数与大于中位数値的个案数相等的一个变跫 
值。因此，为计算中位数我们仅需按照个案对某一特定变量 
取得的值将它们顺序排列；中位数就将是位于这个次序半中 
央 的值。例如，我们取表 4.1 中给出船员人数的第4列，在表 
5. 4中重新将个案排序。 

由于表 5.4 中个案的数目为奇数(25)，处于中位的个案 
数为第 1 V 2; 因此这个分布的中位数值正巧也是13。 
.如果分布的个案数为偶数，比如说24，那么中位数则取第12 
个个案 N /2 与第13个个案（及+1)/ 2 的算术平均数 f 以表 5. 4 
为阅（假设第25个个案 已被排 除），其余的24个个案的中位 

表 5.4 按照顺序对表 4.1 中第5列资料的整理 


序号 1 

官方号码 113685 

船员人数 2 

6 

95757 

4 

11 

123375 

9 

16 

109597 
16 . 

21 

113406 

22 


2 

3 

111424 

115143 

2 

2 

7 

8 

35052 

B30S6 

5 

5 

12 

13 

107004 

94546 

10 

13 

17 _ - 

18 

115149 

96414 

18 

19 

22 

23 

114433 

92929 

22 

23 


4 

5 

1697 

113639 

3 

3 

9 

lvO 

2G40 

62505 

6 

8 

14 

15 

&ee5s 

73742 

15 

16 

19 

20 


115337 

19 

21 

24 

25 

11SS52 

09-137 

24 

33 
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邀:悠是第与第 13 个个案的平均致* 


中位数仅是按照值的排列划分和概括资料的一组测度方 
法之一。除了中位数，还有四分位数，十分位数和百分位数。正 
像中位数将个案分成2组，四分位数将资料分成4组，十分位数 
为10组，百分位数为100组。不幸的是，有两个计算四分位数 
酚愦例；最常见的一个即是第一个四分位数被规定为第 C(Y 
+ 1)〕/4位个案，第二个四分位数（中位数)被规定为第 
I )〕/ 2 位个案。第三个四分位数则是第 C (3 i \^3) D /4 位个案 
(" 较低的”和"较髙的”有时被用来代替“第一个和 “第三 
个”）。按照这个规则，表 5.4 中例子将得出 6.5, 13, 19_5，经 
四舍五入后我们得到作为四分位数的第13,第17和第20位 
个案，它们的值分别是5, 13和21。十分位数和百分位数的 
计算与此相似，当然它们的应用限于资料集是由一个数目很 
太的个案所组成，致使把资斜分成这样多的组是有意义的情 
况。 

各种离中趋势测度方法可以与四分位数1十分位数和百 
分位数联系起来 应用； 最常用的是四分位数偏差，或者更确当 
趣是半内四分位数距，即是第1与第3个四分位数差的一半。 
闼此，在表5,4的例子中，半内四分位数距是 


M 跎，对这个例子我们可以说中位数为13、半内四分位数距为 
S , 使我们对分布的集中趋势和围绕这个集中趋势的离中趋势 
的量有了一些概念^ 

虽然中位数和四分位偏差很容易计算并且是很方便的集 
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中趋势和离中趋势的测度方法，它们也有一些缺点，使我们在 
逋常的 If 况下有其他选择时就不用它们，如我们处理区间资 
料时就是那样 f 若资料属定序类型时，我们仅有两种选择 t 众 
数祁中位数。中位数和四分位偏差最大的缺点在于，它们在 
计箅中没有考虑到 分布中 的极端值，而只是表明它们存在。例 
如，让我们假设用表 5.5 中的资料代替表 5.4 中已经呈现过 
的真实资料。这个分布从形状上看与表有明显的不同，而 
且在表 S .4 和表 5.5 的等级次序中仅有6项具有相同的值。 
再则表 5. 5 中等级次序最高的极端值比表 5. 4 的最高极端值要 
大得多 o 可是两项分布却有着相同的中位数，相同的四分位数 
偏差，而且即便我们改变假设的分布使第20位以上的所有值 
翻几倍依然如此^应该指出，在某些情况下不顾那些与频数分 
布中大多数值相差甚远的値的集中趋势测度方法也有优点 I 
例如在我们研究人们结婚的正常年龄时，不顾55岁才结婚的 
老处女（比大多数同代人晚婚 30— 35 年）的一种测度十分有 
用。与此类似，如我们对一工业城镇中工人生活水准感兴趣， 
实际工资中位数将比实际工资平均数对生活的物质水准提供 
更好的概念；中位数几乎不受生活在这一地区的工厂主的实 


表 5. 5 —组25个假设钕目的排列次序 


序号 

1 

2 

3 

4 

5 

6 

7 

S 

9 

10 

{^:船员人数) 

2 

2 

2 

2 

2 

2 

2 

4 

6 

7 


11 

12 



35 

16 

17 

18 

19 

20 


Y 

9 

10 

10 

10 

11 

12 

13 

16 

20 


21 

22 

23 

24 

25 







38 

m 

77 

95 

100 
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强高收入的影晌。然而，对大多数资料来说，中位数对极端但 
的不敏感是一个缺点。需要强调犯出，中位数的苒一个缺点 
是，仅有很少的统计分析方法应用它。一般说来，如果用的 
是区间或比率型资料，中位数并不是一个很有用的集 +趋势 
的测度方法，而与之相联系的离中趋势测度方法，即四分位数 
偏差，也仅用于少数特殊事例， 

5. S 众数 

果我们有表 4.1 所沄资料矩阵中第2和第3列那样的定名. 

资料，那么雎一可以采用的集中趋势的概括性方法就是 
众数。众数仅是最经常出现的那个值。在给出商船的动力方 
式的变量的例子中，从表 4.2 我们知道有4艘船用风帆、16艘 
用蒸汽驱动，5艘没给出推进方式。因此，变量“推进方式 fr 的 
众数值为“蒸汽”。众数也可以被用作为一种定序或比率型资 
料的概括性方法 I 表 4.1 的变量 a 船员人数”的众数是2,因为 
有3艘船拥有这个数目的船员，而其它的船员人数出现不超过_ 
2次 。 

很明显，从这些钶子中可以看出众数仅限于概括表 4-1 
中那样的资料；这一点在众数应用于历史资料时的确如此，虽 
则在一些事例中了解一个资料集中最共通的值十分重要。例 
如，由于大多数人结婚或生第一个孩子的年龄上的变化会影 
响到出生率，人口史学家常应用众数，但是众数的主要缺点 
在于它没有与之相联系的离中趋势测度方法，因此当资料稍 
屬离散型时众数的应用受到很大限制 8 
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5,6 变异系数 


^^对历史学家很可能有用并为他们所用的概括性测度方法 
#中只有变异系数了。当资料是区间类型时，变异系数提 
供了一个比较两组变量的各自乎均数差异程度的简单手段。 
它对了解离平均数最远的2个或 S 个变量用处很尤 | 比如，在商 
船的例子中，我们或许有兴趣知道商船吨位间的不同是否甚 
于船员人数间的不同。部分是由于它们的计量单位不同（人 
数和吨数），部分是由于它们的乎均数相差甚大，我们不能直 
接比较每一组变量的标准差。任何向量数的变异系数仅是将 
这一向量的标准差表汞成所占这一向量乎均数的苜分比。这 
样，表 4.1 中资料的变舁系数为 t 

吨位尤= S 92. B 吨 
标准差改 =946. 2吨 

变异系数= -|| f ;|- xiOO - 105.99 

船员人数尤=12,8 
沒= S * $ 


变异系数 = x 1 ⑼ ^ 67 * 19 

因此，我们可以说围绕着各自的乎均数，商船吨位较之船员人 
数显乐出更大的变异， 
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5.7 运用哪一种? 


W —个特定的资料集，选择哪种概括性方法首先取决于资 
^ 料的类型，其次取决于资料的特征，尤其是资料的变异范 
围，而第三取决于溉括性方法在以后分析阶段的应用情况。对 
于某些案例，这种选择并没有清楚的界限 I 例如，在人口统计 
工作中，每一秤概括性方法都仅适合于阐述资料的某一恃 
征——比如，众数将给出最共通的结婚年龄，中位数和算术平 
均数将分别给出“正常 w 的结婚年龄，中位数在某秤裎度上排 
除，而箅术平均数则包括大多数非正常的个案。在这些情况 
中，不同的集中趋势测度方法阐明资料的不同方面，而且它们 
都能有用地给出不同的方面。基于研究在德文的一个乡村里 
婚姻情况的表 5. 6,已做到这点。表 5. 6显示出应用集中趋势的 


表 5.G 考利登乡初婚年龄 


男人 

数目 

平均数 

中位数 

众数 

1560-1646 

25 S 

27.2 

25.8 

23.0 

1647-1719 

109 

27.7 

26.4 

23. S 

1720-1769 

90 

25.7 

25.1 

23.9 

1 T 70-18 B 7 

219 

2 G f 5 

25.a 

24,4 

妇女 

1560-1^46 

371 

27.0 

25,9 

23.7 

1 G 47-1719 

136 

29,6 

27,5 

23,3 

1720-1769 

104 

218 

25.7 

2 B .；5 

1770-18^7 

275 

25. 1 

24.0 

21-8 


资輞来獐： E. A. 里格利："前工业化时期英同的家庭人员限葡 T (E. 

^ Faroily limi tali ion in pre-indastria] Ftig]atud , ) ? 《经济史芦论， 

掉19期 （1966 年4月）第1卷，巧拙页。众数是从平均敢和中位数内挂，而不是 
从资料中直接得出的 e 





一种测度方法而没智其他测度方法，可能会给 出错误 的印象 
例如，单独应用平均数将给人以这样的印象，即在几百年间结 
婚年龄的变化很大 I 而另一方面，众数告知我们在几百年里最 
共通的结婚年龄没有多大变化。只引用两种概括性测度方法 
之一而不及其他，都会引起误解；因此，里格利引用了所有3 
神测度方法为我提供了下结论所需的衬料。 

了解和运用这3种 ys (度方 法之间的相互关系十分重要 a 
在一个简单案例中，平均数、中位数和众数之间的相互关系是 
清楚的 & 如果考利登乡中9项婚姻以图 5.2 所示的方式发生； 
那么初婚年龄平均数、初婚年龄中位数和初婚年龄众数是一 
致的; 换句话说，在图 5. 2这类资料的对称分茆巾，3种测度方 
法得出相同的值。在图 5. 2中，它们都是25,我们说这一分栢 
的“髙峰”在25岁。我们可以同样设想每项婚姻都发生在两 
年以前。倘若如此，整个分布应沿水平轴向左移两年，分布的 
峰以及平均数，中位数和众数将成为23,它的对称性仍将得以 
保持. 


婚姻的数目 



结婚的年龄 _ 


图 5.2 对 称分布 


35 * 


如果当资料的分布呈对称时，乎均数、中位数和众数恰好 
重合，那么完全合理并正确地推论，如这三者经过计算而发现 
不一致，如表 5. 6,那是由于分布不对称所致。例如，在图 5 .3 
中11项较大的结婚年龄已加到图 5.2 所示之中 3 很明显图 S . 3 
中的分布是非对称的，而集中趋势的测度有不同的值。众数仍 
保持为 25, 但中位数已升到 26^ 平均数甚至已升到。简 
单的实验表明，如果加入更多的超过众数的结婚年龄，尤其是 
比众数髙得多的年龄的婚姻，乎均数和中位数将分歧得更甚， 
如图二4。 换句话说，我们可以称图 S . 3 这类非对称分茚为偏斜 
分布，并且随着加入更多项的婚姻它会变得更为偏斜^图 
中，由于超过众数（向右）的婚姻多于低于众数的婚姻（向左>， 
我们说分布向右偏斜;如果其他婚姻的出现低于众数年龄，其 
分布看起来就像图 5. 5, 并被说成向左偏斜。 

具备了上述知识，我们就可以回过头来看表5_6所展示的 
测度。如果我们看妇女婚姻，概括性测度必然不是产生于对 
称分布，是产生于偏斜分布。而且，表现1647_1 7 19年的婚姐 
分布比 1560—1 S 46 年的分布更向右偏斜，而 IDO —1769年的 
分布与早期的分布又极为相似。这三个时期初婚年龄众数几 
乎保持不变，因此我们可以推断出，考利登乡初婚年龄乎均数 
的变化主要是由于 1647— 1719年的完全超过众数 〈或 最共逋 
的> 年龄的婚姻成比例地增加既多于 1 S 6 C — IMG 年，又多于 
1720 一 17 B 9 年所造成的。（我们必须说“成比例地 B 增加，因为 
婚姻的数0变化很大。〉所以，由于整个分茚向右移动了 2. 6 
年 （29.6 —27.0>,也由于它变得更向右偏斜，考利登乡的初婚 
年龄平均数并未改变。 

这有两种含义。首先，它改变了我们对作为考利登乡婚 
•时‘ 



潘姻的数 B 



荦婚的 年龄、 

图 5.3 _个向右偏斜的分布 


婚姻 的数巨 



结蝤的年龄 

图 5.4 —个向右偏斜更远的分布 


姻变化的基础的历史过程的观点和解释。其二，从应用统计 
学的观点看，它强调测度集中趋势的目的在于总结和阐明从 
频数分布中得出不同恃征这一事实。它们不能代替而只能补 
充对频数分沛的形状以及塑造这一形状的历史过程性质的细 
心检査。 


f «7 9 




始姻的数目 



图 5.5 _个向左偏斜 的分布 

最后一点：表 5. 6中的众数是用下面的公式从乎均数和中= 
位数计算出来的 

平均数-众数= 3( 乎均数-中位数） 

这一公式仅适用于轻度偏斜的分布，但如果众数计算起来很 
麻烦，或者分布呈不规则形状，并像有时发生的那样，有两个 
以上的高峰，应用它是方便的 a 

应用所有概括性测度方法，乎均数，离中趋势和编组频数 
分布的测度，不可避免地要丧失一定的精确性。这神精确性的 
丧失是否超过了在运算速度和呈现的方便上的所得，要由每 
个研究者为每一项研究项目重新决定。应用数据处理机减少 
了对作为概括性方法的编组资料及集中趋势测度的需要，低 
它们在里现资料方面的优势依然存在。 



时间数列的分析 


t 于本书所关心的是历史问题的计量分析，在其中时间维 

数总是存在的，但直到此刻“时间数列”问题才被明确提 
出可能有点令人感到意外，然而，重要的是认识到资料的历史 
特征并不意味着它们必然构成一个严格意义上的“时间数 
列％我们只把“时间数列的名称给予按照年月顺序排列的资 
料集因而《末日裁判书》中有关教区的资料，以及关于商船 
的资料都不构成时间数列。它们是观察值的数列，首先是宋 
日裁判的教区数列，其次是商船的数列，在时间上它们接近得 
便 我们能 够为每一资料矩阵中的所有观察值指定相同的曰 
期> 但这些项目却并非按时间排序的。 

因而时间数列资料是资料矩阵中的一种特例，在其中资 
料是按照时间次序而不是其他次序排列的。在收集资料的过 
程中，可能会自然形成对资料按时间排序；如果我们以一系列 
时间的点，比如说每每月或者每年来收集某一变量的资 
料，那么我们的资料将按时间排序，而矩阵中的每一列都将成 
力一个时间数列。表 6.1 显眾的就是这样一个资料矩阵，许 
多历史资料都属于这一类型 t 一系列 人口普 査年的人口数，毎 
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表 H 英国本土出口额 

1 B 20 —1350 年 


年份 

百万芘镑 

年份 

百万英镑 


1820 

36,4 

1836 

53.3 


1821 

36.7 

1837 

42.1 


1822 

37. 0 

1838 

50,1 


1823 

35.4 

1 S 39 

53.3 


1824 

38,4 

18-10 

51.4 


18^:3 

3 S .9 

1.341 

51.6 


1826 

31.5 

1842 

47.4 


1827 

37.2 

1313 

52.3 


182 S 

3 C .8 

1 S 44 

5 S .6 


1829 

35.8 

1845 

60.1 


1830 

38. 3 

1 S 4 G 

57.8 


1831 

37.2 

1 S 47 

58-8 


1332 

36.5 

184 S 

52 .S 


1333 

39.7 

1 S 19 

63.6 


1834 

41-6 

1850 

71.4 


1娜 

47.4 





资料来 原：扎 R . 米切尔和 R 迪思，英国历史统汁擒录 *( E . R . Mitchell 
and P * X > eane , Abstract oi Ttrlvisb Hisfcorica ] StatJabJca ), 剑娇：剑桥太学 
出版社 ，1962 年 ，第 282 Hi 


年的收获量，每月末的失业人数，以及其他许多历史资料。我 
们还可以选择另一种方式收集资料，这样矩阵中的个案（也就 
是矩阵的各行）不按时间排序，但是矩阵的列由按时间排序的 
信息组成；如表 6.2 所示，表的左边就是这样一个资料矩阵。 
或者把表中的各行按时间次序加以重新整理，或者建立一个 
频数分布，我们就可以从这个资料矩阵中建立时间数列资料 。I 
再则很多历史资料是以这种方式收集的；几乎所有关于个人 
的资料都将包含按时间排序的信息，如结婚和死亡日期，这些 
都可用于建立时间数列资料》 



寒 e .2 从一资料矩阵求导时问教列 


原 

始 资 

料 


推导出的时间数濟〖 

商船名称 

建造地点 

建造 

时同 

吨位 

晉業商数船 

吨位 

占卜者 

利物浦 

1823 

64 

1820 

1 

11.0 

渴望 

罗塞希提 

1S2B 

129 

1821 

6 

746 

J . 约克爵士 

赤斯特 

1822 

62 

1822 

2 

1G4 

马尔维纳 

印威内斯 

1824 

39 

1823 

3 

501 

创业 

罗寒希提 

1826 

318 

1S24 

B 

1S5 

遮光 

格陵诺克 

1821 

SS 

1825 

5 

564 

w. 乔利夫 

得普福 

1826 

236 

1826 

S 

1325 

旅游者 

伯斯 

1821 

112 

1827 

0 

0 

拉蒙挪 

罗塞希提 

1828 

178 

1828 

1 

17S 

阿脱伍特 

布拉克沃 

1825 

189 

1829 

1 

34 


哈莱京 

得普福 

1S26 

1S5 ' 

伦敦市 

得普福 

1S24 

104 

罗伐尔君主 

得普福 

1822 

102 

金星 

罗塞希提 

1821 

112 

索诃 

布拉克沃 

1B2S 

292 

贝尔法斯特 

贝尔法斯特 

1820 

110 

标枪 

罗塞希提 


145 

磁石 

利梅豪斯 

1326 

166 

简 

北希尔兹 

1S26 

12 

利物浦伯爵 

黑潭 

1823 

145 

海王星 

纽加塞耳 

1S24 

42 

詹姆斯_瓦特 

格拉斯哥港 

1821 

291 

耐久 

巽恃兰 

1S25 

33 

信使 

罗塞希提 

1826 

103 

庄严 

格陵诺克 

1S21 

143 

易普威治 

易普威洽 

1825 

68 

褛斗菜 

得普福 

1826 

241 

罗伐尔宪章 

盖恩斯镇 

1826 

66 

京斯敦 

盖恩斯镇 

1829 

34 


资料 来源： s 所有在英国港口注册的蒸汽船的名称和种类’的统计表一国会 
文件*第47卷，第545苡。它们是 1 S 30 年以前建造、 1 S 4 S 年在伦敦港注册的蒸汽船 • 






由于时间数列资料只是排列资料矩阵的一种方式，我们 
已经讨论过的对资料矩阵加以概括和分类的种种技巧都可用 
于时间数列资料，只要资料的问题和性质宜于这样做。例如， 
我们能够计算表 6.1 中时间数列的平均数和标淮差，其目的 
在于结合围绕平均数的离中趋势，发现 1320—1850 年之间英 
国本土出口额的平均值。与此类似，如果我们愿意，还可以计 
算时间数列资料的中位数和众数的値，并且运用所有我们已 
热讨论过的图解方法为时间数列资料制图。图 6.1 显示的就 
是表 6.1 中资料的曲线图 3 此外，我们可以应用若干不适 m 
于按其他方式排列的资料的时间系列分析方法 

6.1 时间数列分析的对象及假设 

中 e.l 给出 1820—1 S 50 年产于大不列颠的商品的出口值。 
#这是英国利用工业革命期间发展起来的新机器技术，非 
常迅速地发展起它的制造工业，并出 u 越来越多的工业制品 
的一个大好时期。如表 6.1 所示，它的本 i : 出口值在1820— 
1850年①间几乎翻了一番。然而，这种增长并不是经常性 
的;贸易的不景气，其他国家的政治和经济事件，海外消费者 
爱好的转变;所有这拽都影响了这一増长，所以一些年份的增 
长髙于另一些年份。事实上，正如图 6.1 清楚地显汞的那样， 
某些阶段在恢复向上发展之前甚至存在着一种下降。 

如果分析这些年份英国出口的増长情况，则我们需要考 


①这些资料为货币价槙，亦即没 W 根据物价水平的变动进行调被。这个' 
问题下面还要较地讨论。 
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虑到可能会影嗬了这一增长的潜在因素，我们坯窬要菓些方 
法，用以把一种因素的影响与其他因素的影响相区别。能够 
描述各种潜在影响而不对每个影响的重要性作出估计就没有 
多大意义。我们或许最感兴趣的不是出口的长期增长，而是 
年与年之间的短期波动，所以我们需能将短期变化从时间数 
列的长期变化中分离出来。因此我们需要能够将时间数列分 
齡成各自对应于数列中的不同潜在影响的部分 I 而时间数列 
方法就是设计出来帮助我们做到这点的。这些方法并不能告 
诉我们对时间数列的影响是什么，因为那是一个历史学的何 
m . 但是它们能帮助我们区别苌时期影响和不过个别年份的 
短期影响；一旦我们区分开这些影响，就能运用我们的历史知 
识加以命名。 

时间数列分析方法假定，可能有3种影响任何时间数列 
的类型 & 第1种影响在数列中引起长期的增长或下降，并被 
称为资料中的趋势^第2种影响为围绕长期趋势而出现的经 
常性波动。季节性波动就属于此列；在前工业化时期的英格 
兰，粮食价格在秋收之后总是降 至最低 点^另一个例于为不 
断变化的商业活动，在许多国家的经济中引起繁荣和衰退的 
交替，即所谓敌“商业周期”。第3种影响是非经常性的，它在 
数列中引起短期的、不重复的被动。战争、瘟疫或者政府政策 
的改变都可能引起这类波动。所以，对时间数列进行统计分 
析在于把一个时间数列分解为若干与不同的潜在影晌相对应 
的部分，如长期影响、短期影响、经常性的波动及非经常性的 
波动，等等。我们运用时间数列分析方法就能够将每一项以 
、及全部影响分离出来。 

时间数列分析的假设是 * 一个时间数列由上述 3 种类型 
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影响的结果所构成。在用时间数列方法迸行分析时，我们正 
是接受这一假设。因此，我们必须十分小心，不要使这一假设 
与我们作为历史学家对某一特殊资料集的了解发生冲突。如 
果我们作为历史学家，不相倩有一个经常性的周期影晌对某 
一特殊数列起着作用，就不该运用一种假设这种影响存在着 
的分析方法。在本章的以后部分我们还要谈到这个问題，现 
在先让我们讨论对图 6.1 的时间数列的分析。 


百万英镑 



as- 
20 - 
15 - 
10 - 
5 - 

O ■ 1 | -.* * ■ » 

1820 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 

年份 

囤 S .1 ^20—1850 年英国本土出口 

资料来 海:表 e 丄 
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6.2 增长率 



m 6*1 清楚地表明 1820—1850 年之间英国本土出口呈上 
@升趋势。然而，若我们要想徉细地分析这一增长，还要了 
解在整个时期以及部分时期这一增长快到什么程度。例如， 
我们会有兴趣了解，这一増长究竟是否在初期比末期更快这 
样的 问题。 另外，例如若我们想要比较出口增长与进口增长， 
我们就裔要某种对增长的测度，用以比较两个数列。 

从表6,1可以看出， 1820—1850 年出口几乎翻了一番* 
很呀显这是一个很大的增苌，但用年间几乎翻了一番"这 
种表达形式，这样就难与其他较短或较长时期的变化相比较》 
如果我们能将这一增长表示为每年的平均増长，这神比较就 
方便了。似乎计算这样一个年平均增长非常容易，只要把1820 
年与1650年的出口额之差除以这一期间的年数 即可； 我们将 
得到 


71.4-35.4 

30 


1,167 


这样我们就可以说英国出口每年增加的平均数为 1.167 <百 
万〉 英镑。这是不错的，但它对我们与其他数列作比较方面帮 
助不大，因为我们不会知道增长起始的那个基数。以 1( 百万> 
英镑为起点每年增加 1 * 167 ( 百万）英镑较之以 100 ( 百万）英 
镑为起点每年増加相同数量要引人注目得多1可是上述的增 
加平均数不能区分这两种情况 & 如果我们不顾原来的单位（萑 
本例中是英镑），要把我们的出口值与以英担为单位的茶叶进 
行比较，那也是有用的。 
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这两秤必要条件，即霈要考虑基致以及需荽有一个不銳 
原来单位的测度，提示只有基于百分比的测度才会是合适的。 
这里还有一个更进一步的要求，即这一测度应是累加的，把每 
年的增长表达为以前一年值的百 分比； 事实上它应以复利率， 
而不是以单利率计算。所以满足上述所有要求的增长率为百 
分比增长率，其计算公式如下 

( 晉 ) -1 ) 1 。 0 

这里 r 等于所求的增长率，％为末期值，为初期值 ， m 是 
初期与末期之间年份之差。 

应用对数可以大大简化增长率的计算。以表 6.1 中的资 
料为例，为计算 1 S 20 年与1850年的增长率，我们査出对数 
X >( log 71.4 = 1_&5 S 7) 和 Xr ( log 36*4。 1.5611>。两者相减， 

logJ £^- l O gJ ^=0_ 2926 。 为开30次方需除以 w = 3 0, 得到 
0.009 « o 0*0098 的反对数为1.023,减1再乘以100,我们就 
得到每年平均百分比增长率为2.3%。 

〈应 用印就的增长率表也可以査出增长率，而不劳计算。 
还应指出，尽管在上述的例子里我们计算的是每年的增长率， 
运用同样的方法我们可以计算任何一段时期的增长 率。〉 

増长率 是一种 很有价值并被广泛应用的描述时间数列资 
料的方法，但使用它们时要小心，当数列 中有拯 著的波动时允 
为如此。在这种情况下，选择增长率据以计算的起始和终止 
年份极为重要。我们可以从表中的资料计算出其他一些 
增长率来说明这点；表 6.3 显示了这些増长率 ， R 6.2 则将它 
们绘制在半对数尺度图上。由于增长率是对按不 变氏例 （百 
分数>的増加率的测度 〈如 每年百分之 2.3), 所以半对数图是 
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合适的。如第四章所述 P 运用对数垂直 R 度便给出这样一个 
S 表，它以一条直线（但不是水乎线〉代表按不变比例的变化， 
这条线越陡就说明变化越快》因而在图62中，; L &20— 1犯0年 
的连结线和 1826—1850 年的连结线在斜率上的差恰恰表示 
后一时期的増长较快。在一张线性 R 度®中，按经常比例的 
变化由一条曲线表示(如图 6.1), 这种曲线较难绘制，并在曲 
线之间进行比较不大容易。 

表 6.3 中所有的增长率都是正确的》它们给出不同起迄 
年份中的每年百分比增长率。可是，作为整个时间数列的一 
个测度，它们各有严重的缺陷；我们从1820—1843年英国出 
口增长得到的印象与从 1826—1850 年之间増长得出的印象 
大不相同，尽管我们计量的时期并无很大的不同。 


表 6.3 表中资料的增长率 


起迄年份 

时期長度 

每年百分比增長率 

1 S 20 —1850 

30年 

2.3 

1820—1 S 4 S 

2 S 年 

1,4 

1826^1850 

24年 

3.5 

1823—1847 

24年 

2.1 


如果我们研究一下囝6.2，其中表6,3中所用的起迄年 
份都已用粗线连结起来，表 6.3 中产生增长率之间差别的原 
因就清楚了。我们见到，在选择 1820—1 S 48 年为起迄年份 
时，我们是从1820年的高点至 1 S 4 S 年的低点进行测度的，而 
在1826 — 185 G 年这段时间我们所做的恰恰相反。甚至当我 
们取 1820—1850 年为起迄年份时，我们仍可以看到连结这两 
个年份的线超越了几乎所有其他的资料点。只是在取 1 S 23 — 
J 847 年为起迄年份时，我们似乎才选择了据以计算増长率的 
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具有相绉典型性的年份。 

这绝不仅是个统计 问题。 为了选择用宁这类计算的起迄 
年份 t 我们霈要极其小心以免选择非典型性的年份，因为这样 
做会严重影响我们的结果。例如，有关工业革命时期英国工 
人生活水准变化的长期的历史学争论大部分与选择合适的起 
迄年份有关。如果选择了这些年份，生活费用会明显上升 J 如 
果选择了那些年份，生活费用则会下降。 


€.3 趋势 

果我们再看图 6. 2,选择适当的起迄年份的部分困难，似 

与我们必须选择两个而且只有两个起迄年份来描述整个 
教列的增长这一事实有关。因此，其他年份的资料不被计算 
在内。如果我们要去找到一种对整个数列增长的溯度，去找 
到一种使我们能应用整个数列的测度，则显然更为合理有用。 
事实上，我们所要描述的是资料中的长期趋势，亦即在时间数 
列分析中假设的第一种影响对时间数列所发生的作用。 

我们将从英国出口每年按一不变的绝对暈增长这一假设 
开始，然后用数列中的所有资料对这个绝对置作 as 估计。一 
个按不变的绝对置变化的数列可以用一条直线在自然尺度图 
上表示出来，因此我们将用图 6_1 所示的资料。在本章的以 
后部分中我们将会考虑一种当我们不是把一个数列看作每年 
.按不变的绝对置，而是按不变的比例增长时为合适的方法;这 
祥的数列以及在这种数列中的长期趋势可以用一条曲线萑自 
然尺度图或用一条直线在半对数图（如图 6,2) 上表示出来 # 
对于一个资料数列中的长期趋势，我们有时很难决定究竟是 
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用一条直线 C 线性” > 形式 E 是用一 条妞线 （“曲 线性。 的彤式 
来表萊为最好，因此我们必须事先懂得适用于每一种情况的 
方法。 

在上一节里 3 我们计算出 1820—1850 年每年出口的平均 
绝对增长为 1167(百方> 英镑。在计算中仅用了在1820年和 
1850年的出口值资料，不顾介于两者之间的其他年份。从图 
6.3 可以看出，这种计算等同于在一自然尺度图上画一条连 
结 1 S 20 年和1850年数据点的线，并测度每一年沿水平轴向 
前运动时这一连线沿垂直轴上升所呈现的距离。然而，正如 
在上一节所看到的那样，仅使用 182 D 年和]850年的资料可 
能会导致误解，因为这两个年份可能是非典型性的。最理想 
的是，为了充分考虑到每一年份的资料，我们需要找到一条穿 
过所有资料点的直线。然而，从对图 6.3 的观察中可以明显 
看出，我们不可能找到这样一条连结图中所有资料点的直线。 
因此 3 作为一个较次的最好办法 s 我们试图找到一条尽可能接 
近所有资料点的宣线，从某种意义上说这条线是所有可能穿 
过图中资料点的直线的平均数。一些资料点将处于这条线上， 
其他数据点或高于或低于它。当然，我们珂以根据自己对这 
条直线应处方位的判断，试在图中画出这条线，但是我们的判 
断很可能会出错，并引起别人的争议 a 因此，我们需要根据某 
种理论来计算这条线，这种现论被认为能对图中所有资料点 
作出最隹拟合。 

可以显示出，这条最隹拟合直线是通过“最小乎方法”计 
算出的。图 6.4 阐明了这一方法的逻辑。我们试选择这样一 
条穿过图中资料点的直线（即图 6.4 中的线 B )， 然后从每一点 
向这条线引垂直线(如我们对 1835—1845 年所做的那样)，计 
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图 e .3 1820—1850 年英国本土出口。 

1820—1850 年的平均年增长 
资料 来痕: me.u 





1820 22 24 26 28 30 32 34 36 38 40 ^ 2 44 46 48 50 

年份 

图 S .4 英国本土出口，1620—1650年。趋势 
资料来源：表 H 


量这些连线间的距离，对每一个值平方后再相加，这时可以看 
出从我 们选择的这条线得出的结果（所有点与此线偏离的平 
方和)是小于图中画的任何其他线可能得出的结果。用这种方 
法找到的这条直线对图中所有点提供最佳的拟合，因此它也 
就是用以描述资料里长期趋势的最合适的直线。 

我们可以通过试误法，在图上画线，测度偏差，计算平方 
和等等，发现这一最佳拟合线，但很明显这将是一个很麻烦的 
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过程我们代之以应用两个公式，两者一起可使我们绘制这 
条直线时满足镝离平方之和应尽可能小的这个条件。为了理 
解这一点，我们必须考虑如何绘制如图 6.4 中的线 B 那样的 
线。线 B ， 或者任何像图中所画的线 A 那样的直线，都有两 
个重要特征 & 其一，如此线一直沿图中垂直轴延伸，它必然 
与那个轴在一特定点相交。其二，线的倾斜与图的水平轴相 
对 o 

为了在图中画出一条特定的直线，我们需要知道关于它 
的两点，第一，它与竖轴在哪里相交 I 第二，此线相对于水平铀 
的斜率是多少。第一点，称为截距，仅是垂直轴上单位的一个 
数目。如图 6.4 巾的线 A .， 与垂直铀相交于代表35 (百万）英 
镑的点上。第二点稍徽复杂一些，以截距为起点沿水平轴画 
线时我们需知道此线向上或者向下的幅度。再以线 A 为例， 
我们看到1820年表示的值是35< 百万〉 英镑，1822年为 37. 5 
(百万）英镑，〖824年为 4( K 百万）英镑，以此类推。换句话说， 
沿水平铀每前迸一年，我们都要在垂直轴上加上 1.25 (百万） 
英镑^ 10年以后我们应已累加了 12.5 ( 百万）英镑，20年以 
后累加了 25 (百万）英镑，而我们可以知道线 A 实际上是一条 
追踪这些值的 直线。 

因此，为丁能画出最能拟合我们的资料的线 B ， 我们需要 
知逍两点，截距和斜率，这也是依据最小平方法的两个公式给 
我们的两项信息。这两个公式是 

截距， c= 2〜啊" 
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根据表 S .1 资料，线性趋势的计算(长方法） 

时间单位以1820年为基础 


资料⑺ 

(X) 

X fl 

XT 

36- 

4 

0 

0 

0 

36. 

7 

1 

1 

SG.7 

37. 

0 

2 

4 

74.0 

35, 

4 

3 

9 

106.2 

38. 

4 

4 

16 

153.6 

38, 

9 

5 

25 

194,5 

31, 

5 

6 

ne 

1S9-0 

37, 

2 

7 

49 

260.4 

36- 

8 

8 

64 

294.4 

So 

S 

9 

81 

322 *2 

38, 

3 

10 

100 

383.0 

37 

2 

11 

121 

409,2 

36, 

5 

12 

144 

438.0 

31 

7 

13 

163 

516.1 

41, 

fi 

14 

IPS 

m2 a 

47- 

4 

1o 

225 

71J .0 

G3, 

3 

16 

256 

sm 

42, 

1 

17 

2&9 

71.6 .7 

50 

X 

IS 

324 

^01.8 

53. 

2 

19 

361 

1010.8 

51, 

4 

20 

400 

1028 .0 

51- 

6 

21 

441 

1083.6 

4.7, 

4 

22 

484 

1042.8 

52- 

a 

23 

529 

1202.9 

SS 

6 

24 

576 

U06 A 

60, 

1 

25 

fi25 

1502 .5 

57, 

8 

26 

676 

1502,8 

58, 

s 

27 

729 

15S7.B 

52. 

8 

28 

784 

1478 A 

m. 

6 

29 

S41 

1844 .4 

71. 

4 

30 

Ooo 

2142.0 

423.3 

EX-4B5 

EX 3 - 9455 

i:xy- 

」 23973.2 

743169.2^664624.5 78544.7 

29^105 216S25 " 76S80.0 

1429*3-1,02(465) 14 加』一 

31. 3J 

- = 1.02 

47L3 

30. SI 


/ Tr = 30, E 3. + 1 + 0 


份20 123456789 30 123在 -5 67 89 40 1234: 567 89 50 

eils 




在这些公式中，像通常一样，及是所有值的数目。当我们 
计算一个时间数列的趋势时3 Z 为从时间数列开始以来的年 
份的向量，而 F 为资料值的向量 3 表 6.1 中资料的2个向量 
JT 和在表 6.4 中被表示为第3和第2列。表 6.4 还显示 
了求解 a 和&公式所需其它数值的计算方法。 

如表6_4所示，计算了几项和以及儿项平方和之后，我们 
就可以先计算6,然后~我们发现，对于这些资料，直线的 
截距为30.81，斜率为1,02。这意昧着此线与垂直轴相交于 
30.81( 百万）英镑这一值点，每年沿水平轴上升 1.02 (百万> 
英镑。至此，我们知道1820年此线经过代表 30.31( 百万）英 
镑的值点，1821年此线经过代表 31.83 (百万）英镑的值点， 
1830年此线经过 SO . 81 + 10(1.02) = 41.01 (百万）英镑的 
点，依此类推，此线即是线 B ， 而且我们说拫据最小平方法它 
是对表6,1中的资料的拟合；它代表时间数列中的 “ 线性趋 
势％ 

通过应用一个简单的公式，我们能计算出线 B 将经过的 
所有值点 

Y=a^bX 

这里对和 F 的定义与在求的最小平方法公式中 
的定义一致。此公式为求直线的一般公式，根据 a 和&的变 

化可以描绘任何特定直线。例如，我们可以用等式 

35 + 1_25 X 

在图 6.4 中画出线而用等式 

Y = 30 . S 1 +1,02 X 

画出线 B 。 与此类似，如果我们记得曾经计算过 1 S 20— 1850 
年之间每年绝对增长的平均值为 1.167( 百万）英徬，我 们便可 
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稂据表资料，线性趋势的计算(简便方法) 
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以说圉 6,3 中连结这两个年份的直线可用下边的等式来描绘 

: T 二36,4+ 1,1671 

然而，只有图 6.4 中的线 B 才具备对所有资料点进行最佳拟 
合的所需特性。 

表 6.5 所示的计算方法可以减轻计算线性趋势时的繁重 
计算工作。如跟我们不像在表 6.4 中那样从时间数列的开始 
测度作为时间单位的 I ,而是从时间数列的中间开始测度，因 
此若这样做，最小平方法的两个等式就变成简单得 
多的形式 

及 


T sxr 

~T ： X^ 

而我们便像表 6.4 那样计算线性趋势 

为了依据线性趋势计算增长率，仅需在线性趋势线上取 
两个值点，这两个值点对应于我们想要测度增长的年份。例 
如，从线 B 的公式+ 1.021 中我们知道18 2 0年的 
值是 30.81.1 S 50 年的值是 61.41; 计算这一起迄年份之间的 
增袄率，我们得到的年增长率力2.3%。（在表6,5中我们计 
算出《 = 这是因力取了 1835年为时间单位中点的缘 

故，因此当我们计算1835年的趋势值时， X 1Sfl5 = 0, 就 

等于 4 S .11。） 用同样的方法我们可以计算趋勢线上任意两点 
间的增长。 

在上述例子中， 1820—1850 年线性趋势的增长率与根据 
资料的起迄年份计算的增长率是一致的 I 这个一致纯属巧合， 
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从連论上看这两种计算増长率的方法完全是分立的，尽管运 
上面的例子中两者的结果相同。总的说来，由宁线性趋势考虑 
了 时间数 列中的 所有单个值，拫据线性趋势计箅增长率要比 
较可取得多。 

一旦对资料中的线性趋势作出估计，我们就可从原始资 
料值中减去趋势值，如表9中第2和第3列所示。其结果 
为一个由原始数列中的波动所组成的时间数列，因此我们就 
可不受资料包含长期趋势种种复杂因素的影响，继续对这些 
波动进行分析。与趋势偏离的时间数 列用图 6. 5表示。 


1820 22 2A 26 28 30 32 34 30 3S 40 A4 46 43 50 

年份 

图6 + 5 1&20— 1850年英厲出 fl 趋势偏离 

资枓来 源：表 0.1* 


r 


万 o 9 s 76 S 4 3-2 rro- 1 2-345 6 7f s 9 ho 

j 日 +1++ 4 -+ 4 --1-+-1-:+ •■ 二 -j-r,~_ 二 -1 
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迄今我们已集中讨论了线性趋势作为一种槪 链一^ ㈤ 闻 
数列的方法的优点，以及集中注意于环绕趋势的波动的优点 e 
但该种方法是设计来以一条直线拟合于资料，而很多历史时 
间数列并不见得是直线性的，因而有其缺点。例如如果我们 
比较图 6.7 刮显示 1770—1800 年英国原棉进口増苌的图 
4. 7,就不难发现一个为适当的线性形式的数列与一个为曲线 
形式的数列之间的差别。当数列是非直线性时，很明显不适 
宜用我们刚刚讲过的以一条直线来表述资料的方法， E 为这 
样一条直线可能使人対趋势产生错误的印象；在此用一条曲 
线来表示这一趋势更为合适。尽管常常可以做到这一点，但 
它所涉及的数学内容耍比计算一个线性趋势所涉及的数学内 
容要复杂得多。因此，经常采用的一个#代方法是将数列转 
变成財数形式。这样做非常合理，正像我们在上节中在看增 
长率时所见到的那样，我们可以假定数列每年按一个相同比 
例数量变化。如果原棉进口的资料标绘在一个半对数图上，如 
图 4.9 所示，我们就可以看出各个值呈现出一条非常接近于 
直线的形式，因此在这里用原始资料的对数值计算线性趋势 
非常适当。完成这项工作之后 〈如表 6.6), 趋势值就可以被 
标绘在一张半对数图上（如图6 所沄） ，得出一条直线，或则 
在原来的图上经过反对数的转换之后 5 将趋势值给出一条曲 
线，如图 6.7 所示。这一方法的更进一步的优点是，增长率可 
以立即从经过计算的趋势等式中显现出来。这个等式为 F = 
其中6等于1加上每年平均增丧率6因此 P 可以马上看 
出原棉进口增长率为每年 9. 3艿。实际上，这一优点很大，因 
此用对数计算线性趋势常比用原始资料计算线性趋势更为可 
取，就是当原始资料近似于一条直线时也是如此。 
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崁 G . e 根锯1770—1800年奖国进口原锦资钭 
运用对数计算的线性趋势 
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6.4 时间数列中的经常性波动 


-一节里我们集中恢了运用线性趋势计算增丧率的优点。 
I 另外，如我们见到的，线性趋势代表了时间数列中长期因 
素的影响。例如，在表 6.1 资料的例子里，我们可以认为线性 
趋势指出了英国制造能力的长期增长及外国对英国产品需求 
的增长^除了这一出口增长的长期趋势以外，图 6.5 清楚地 
表明围绕着这一趋势存在着一些显著的波动，现在我们就可 
以着手讨论如何分析这些波动。 

时间数列分析方法假定有3类可能的波动，其中2种是 
经常性的，1种是非经常性的。第一类有经常性的波动被称为 
季节性波动，它包括气候，一星期或一年里工作和闲暇型式， 
以及其他经常性的每星期、每个月或每年的所发生事件等因 
素所引起的波动。在前工业化社会里，这类波动，特别是由气 
候引起的波动，对工作型式和生活的很多方面发生相当大的 
影响：冬季难于旅行，夏天磨坊缺乏水源动力，冬季和收获之 
前食品价格上涨。甚至在现代化社会里，每年像圣诞节和复 
括节逸样的特定节日也会影响工作型式，并且食品价格仍然 
在各季节里变动。因此，由所收集的间隔不到一年的资料所 
组成的任何时间数列，都有可能受到季节性波动的影响。像 
表 6.1 的时间数列，由于资料只是按年收集的，当然不可能受 
到季节变化的影响。 

为了说明从时间数列中分离季节性波动的方法，我们因 
此耍使用另一集资料，它由 1713-1718 年温彻斯特学腙购买 
小麦的价格所组成，这些价格是由贝弗里奇勋爵作为他对英 
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表 G.7 计算 1713-1718 年温彻斯特学院小麦价格的季节性波动 


时 期 


小羞价格 
(毎夸特小 
麦价格） 


蟹鼸 I m 


42-67 

56-88 

49.78 


46*71 -4.04 —0.09 


45,86 

45.01 


11,02 

4,77 


1,55 

0.73 


1713 Ut 季度 
2 nd 季度 
3rd 季度 
4出季度 

1714 1st 季度 
2n<i 季度 
3rd 季度 
4th 季度 

1715 1st 季度 
2nd 季度 
3rd 季度 
4tli 季度 

1716 1st 季度 
2nd ■季度 
3rd 季度 
4th 季度 

1717 1 st 季度 

择度 
3rd 季度 
4th 季度 

1718 1st 季度 
2nd 季度 
3rd 季度 
4tli 季度 


46,21 

44.16 

32-00 

43.31 

32,00 

42,46 

32.00 

41.61 

2S-44 

40.76 

46*21 

39.91 

49-7S 

39-06 

42.67 

S3. 21 

35-56 

37.36 

3H0 

36.51 

39*10 

郎，66 

40-29 

34.81 

33.77 

^3,96 

43-S4 

83.11 

32*00 

32.26 

32-00 

3J. 41 

32,00 

30,56 

24.89 

29.71 


2.05 

— 2.19 

-11.31 

-0.09 

-10,46 

1*55 

-9,61 

0.73 

-12.32 

一 2.IP 

6.30 

-0.09 

10, 7S 

1.55 

4-46 

0.73 

— ISO 

-2.19 

2.59 

-0.09 

3.44 

1.55 

5.4S 

0.73 

-0.19 

-2.19 

10 ■ 73 

-0.09 

-0.26 

1.55 

0,59 

0.73 

1.44 

-2.19 

-4.82 

-0.09 


非趋势、 
非季节 
性数列 

非季 

节性 

数列 

一 3,95 

42,76 

9.47 

47.41 

4.0t 

49,05 

4.?1 

4S.40 

-11,22 

32.09 

— 12.01 

30,45 

-10.M 

31.27 

一 10. 15 

S0.63 

6.39 

46.30 

9.17 

48.23 

3.73 

41.94 

0.39 

37.75 

2.6S 

39, 

1.89 

37*55 

4.75 

33.56 

2.00 

35,93 

10.82 

43-93 

-1,81 

30.45 

一 0 * 14 

31.27 

3.63 

34,19 

-4.73 

24.9S 

-6,71 

22*15 


23-70 

26-67 

24*89 


28.86 

28.01 

27*16 


— 5.16 

— 1-34 
-2.27 


1.55 
0.73 
-2, 19 


-2,07 

-0.0 S 


25 + 94 
27.03 


1* 趋势值是裉据1占计的线性趋势等式，价格， S 6. 93 -0.85 时间，用简逯方 
法算出的。 

2* 季节性成分是通过取每年第一季度的趋势偏差平均数，及第二莩度的趋 
势离差平均数 * 等等计算出的。得出 - O.OSt 1 . 56 , 0.74， -2.17; 褶这些值合 
针得到 0*05 ,但不言而喻季节变量对金年的影响应是中性的或力零。所以，我:们 
闬每一个案 (0*05/4) 的近似值去调整季节平均数， 得到 -0.09, 1.53, 0.73, 
-2.1 S , 其和为零> 用这垫值作力季节 变簠的 估计倩。 

资料 来猄： 贝弗 里奇： * 英格兰的价格与 工资， （ Beveridge, Price and 
Wages in England ), 第 1 卷，第 83 页。 








国价格和工资的伟大研究的一部分而收 集的， 它们是研究生 
活水准的重要凭据。我们需要从数列中排餘季节性影响，主 
要使我们能研究特定年份中可能引起饥荒或供应过剩的短期 
波动，另一方面还使我们能研究不受每年经常性变化影响的 
价格的长期趋势 & 

为了分离出季节因素，我们首先必须估计趋势值，因为从 
表 L 7 和图 6. S 坷以看出这一数列有一个下降的趋势。如果 
不消除这一趋势的影响，它可能会左右我们对季节变置的估 
计。因此，我们估计线性趋势，计算出数列与趋势值的偏差， 
给出在表 6*7 的第3列中所示的数列。为了计算出经常的季 
节性成分，我们要取每年第一季度的所有值，计算它们的算术 
平均数，并对第二、第三、和第四季度的值也进行这一计算工 
作，在表 6.7 的第4列给出这些值。这些值代表每一季度的 
平均上涨或下降数列，这也就是我们所说的季节性成分。把这 
拽季 节值从趋势偏差中减去所得的残差（第5列>代表长期趋 
势和季节性成分以外的因素的影响。我们也可以（如第6列> 
钯季节性成分从原始数列中减去，得到的再一个数列包食长 
朔趋势和残差波动，但排除了季节性影响。 

如梁我们的资料是按星期或月收集的，我们将遵循完全 
相同的步骤，找出一年中对应的星期和月的偏差平均数。应 
该指出，还有其他分离季节性变量的方法，参考书目中开列的 
统计学著作对此有更为详细的描述。 

从资料中排除了季节性波动后，还剩下两类波动，一类是 
经常性波动，另一类是非经常性波动。第一类经常性波动正 
规地被称为周期波动 g 它与季节性波动的区别在于周期波动 
发生的间隔往往长于一年。这些波动最常见的形式就是被给 
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济史学家用来描述经济活动中经常性或半经常性变化的商业 
或贸易周期，这些变化在19世纪最为显著。商业通常每隔 
7—10 年就经历一个从萧条到繁荣，苒转入萧条的经济周期， 
虽则有些经济史学家试图把那些持续达几世纪的“长波”区别 
开来 a 

如前所述，时间数列分析方法假定时间数列中可能存在 
着周期性波动，因此它提供了分离这些波动影响的手段 。当 
然 ，历史学家是否运用这些分离周期性波动的手段完全取决 
亍他是否认为在他的历史数列中存在着这类周期。这是一个 
历史问题,而不是统计学问题。例如，历史学家可能认为没有 
理由相信他的资料受到任何经常的周期性因素的影响，并认 
为他的时间数列仅受到長期趋势或非经常性波动的影响。如 
果他确信如此，那么他就不应使用上述方法去排除并不存在 
的周期性因素，并且他也可以忽略以下几段的论述。 

然而，如果我们稍有理由相信时间数列中存在着周期性 
成分，那么我们只有将它分离出来才能对此加以研究，也只 
有在我们从时期数列中排除了趋势和周期性成分之后才能对 
剩下的非经常性波动进行研究。从数列中排除周期性成分的 
最通用的方法波称为移动平均数方法。移动平均数方法的步 
骤和结果可从表6,8和图 6.9 中看出，这里显示的是一个有 
着绝对经常的周期性波动的假设资料集，其中每 4 年一个高 
峰，每4年一个低洶。若如表 6.8 所示，我们取最初4个数值 
的算术平均数，再取第 2—5 个，然后取第 3—6 个数值的平均 
数等等，我们就得到一个绝对经常性的和线性的数列，也即其 
中没有波动。因此，通过移动平均数我们就排除了周期性成 
分的影响。 
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銥而，这种方法也常碰到一些通常不负历史学家充分试 
识到的困难。对于表 6， S 中的资科，我们通过以4年为一个阶段 
的移动平均数排除了周期性成分 q 我们这样做而不是例如以 
3 年为一个阶段来取平均数，是因为假设的数列具有一个绝 
对经常性的4年周期（从高峰到高峰或从低潮到低潮的距离 
因此，当我们知道了这一周期的周期性，这种方法是行之有效 
的 * 我们于是可以选择移动平均数来适应这一周期性 q 


表 8. S 计算移动平均数的方 法：假 设资料 


时 

期 

资枓 

值 

4年的 
总计 

4年的 
平均& 

6年的 
总译 

5年的 
平均数 

0 

6 





1 

5 

20 

5 



2 

4 

20 

5 

2G 

B.3 

3 

5 

20 

5 

25 

5.0 

4 

6 

20 

5 

2-V 

4.3 

5 

6 

20 

5 

25 

5.0 

6 

4 


5 

2G 

5.3 

7 

5 

20 

5 

25 

5.3 

S 

5 

20 

5 

討 

4.5 

9 

5 

20 

5 

25 

5 + 0 

10 

4 

20 

5 

25 

5.2 

11 

5 

20 

5 

26 

5.0 

12 

6 

20 

5 

24 

4,8 

13 

G 

20 

5 

25 

5.0 

14 

4 

20 

5 

26 

5.2 

15 

5 





16 

mm 






注意 : H 年的总计和移动平均数值,按惯例被置于所讨箅时期的中点的相对 
位置上。 


然而，在大多效历史实例中，准确无误地决定周期性十分 
困难 9 例如，19世纪的商业周期的长度从5年到 1 C 年不等，我 





们似乎只要确定某种平均的周期长度，比如说 9 年，并以此为 
基础进行移动平均数的计算。但不幸的是，移动平均数的方 
法的奏效在很大裎度上取决于选择什么样的周期时间，选择 
错误可能导致极端使人误解的结果。这一点从表 6*8 中可以看 

若由于某种原因，我们取资料的5年移动平均数，那么我 
们就不可能得到一个平坦的数列。而且，5年移动平均数数列 
中的离峰将与原始数列中的低潮相对应，而前者的低潮则与 
后者的髙峰相 对应； 以移动平均数为基础的数列将会完全错 
误地反映原始数列。 

在图6,9的例子里，很明显已给人造成了一个错误的印 
象。可是在历史实例中，这一点可能表现得明显得多，而想要 
运用移动平均数方法的历史学家要时常警惕这种可餌性，即 
在排除周期性成分的过程中，他正在歪曲佘下的时间数列。 

(如前所示，移动平均数的另一个固难在于它可将经常性 
波动引进一个实际并不存在经常性波动的数例。需要进一步 
考査这种可能性对历史时间数列的 影响； 与此同时，历史学家 
在将移动平均数方法运用于长期的时间数列时则更要特别小 
心谨慎。） 

如果历史学家确信数列中存在着经常性周期，并能清楚 
地认定这一周期的周期性，那么应用移动平均数方法罪常适 
宜。根据历史假设，1820— 1 S 50 年存在着一个经疥活动的5 
年周期，它影响着英国本土的出口^据此，表匕 9( 第3、4、5 列〉 
显示了一个应用于表 6.1 中资料的5年移动平均数。表中第5 
列给出数列的周期性成分，从离差数列（第3列）减去第5列得 
出一个残差数列（第6列夂 

在讨论这一残差数列之前，我们应指出移动平均数方法 
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表 S .3 将表 B.1 中的时间数列分为3种影响的方法 


年份 

I 

资料值 

⑴ 

II 

趋势值 

㈤ 

m 

偏蒂 

a-ii) 

IY 

5 项偏 
差之和 

Y 

m 的移动平均 
数 :周期 性波动 

YI 

非周期 

性波动 

1820 

36.4 

30.8 

+ 5.6 


% 


1821 

36.7 

31,8 

+ 4.9 




1822 

37-0 

32.9 

1-4.1 

+ 19,6 

+ 3.9 

0.2 

1823 

Bo.i 

3 次 9 

十 1.5 

+ 17.0 

十 3,4 

-1.9 

1824 

38 .A 

34,9 

+ 3.5 

+ 6.7 

十 1.4 

+ 2.1 

1825 

38. G 

^.9 

H-3.0 

+ 1,8 

+ 0.4 

+ 2.6 

1826 

31.5 

36.9 

- GA 


-0.4 

-5.0 

1827 

37,2 

88.0 

-0.B 

-S,6 

— 1,9 

+ 1.1 

182S 

36.8 

3-0 

一 2,2 

— 15.3 

— 3.1 

十 0,9 

1829 

35.8 

40,0 

-4,2 

-14.7 

-2.9 

一 1.3 

1_ 

3S,3 

41 .0 

-2.7 

-20.5 

-4.1 

+ 1.4 

1831 

37.2 



— 22-7 

-4,5 

U 

1832 

36.5 

43,1 

u 

-22.0 

-4,4 

-2.2 

1B33 

39.7 

44.1 

- 4.4 

-13.0 

一 3 + 6 

— 0, S 

183-1 

41.6 

45,1 

-^.5 

-7.0 

-1A 

-2.1 

1835 

47,4 

46.1 

+ 1.3 

-6.5 

— 1.3 

+ 2.6 

1S36 

53,3 

47,1 

+ 6,2 

-1,2 

-0.2 

6 . 4 

1837 

42.1 

4S.2 

-0.1 

+ 5.3 

H ]/丄 

— 7.2 

1838 

50,1 

^19.2 

H 0,9 

H-4.2 

- 十 O.ft 

+ 0.1 

1SS9 

53.2 

b0.2 

+ 3.0 

-2.6 

— 0 ■ 5 

+ 3.5 

1840 

5 } A 

D1.2 

4 0.2 

-2.4 

- 0.3 

-0.7 

1S41 

51,6 

S2.2 

一 0.6 

-3.G 

-0-7 

H-0.1 

1842 

47.4 

53.3 


U 

-0.R 


184：3 

52 + 3 

& 4. 3 

— 2.0 

+ 0.4 

+ 0.1 

-2.1 

1844 

58.6 

05.3 

H 3.3 

+ 1.5 

十 0.3 

+ 3. 0 

1845 

60.1 

b6/S 

-3,S 

h 7.a 

+ 1.6 

+ 2.2 

1846 

57.S 

57.3 

4 0.5 

i. : V2 

-i o k e 

一 0,1 

1847 

58.S 

bSA 

t 0 ■ 4 

— 3.1 

+ 0.6 

-0,2 

1S43 

52.S 

59.4 

一 6* 6 

十 9. 3 

十 1 .分 

—&,5 

施 9 

ea.e 

60.4 

+ 3.2 




1850 

71.4 

61.4 

H 10.0 





注意：第 2 列（趋势） 、第 6列（周期性波动）、第6列（非;萄期性波动）相加力第1 
列（原始资料乂 









述有一个缺点，即它在时间数列的初期和末期没有给出若干 
年的数值。当所用的是一个很长时期的移动乎均数时，这点 
尤力严重 # 贝炜里奇为一些农业价格数列所用的31年移动平 
均数丧先了数列中前 15 年和最后 15 年的佶息，这一缺点是否 
足以排除运用移动平均数方法，取决于所研奔的时间数列的 
特征，并取决于这一数列初期值和宋期值的重要性。 

从数列中排除了周期性成分后，我们只剩下一个残差数 
列，如表 6*9 中的第6列所示。由于我们己将趋势和经常性 
波动从数列中排除，这就是数列中的非经常性波动。如果我 
们认力不可能识别出数列中的周期性波动，那么我们应将表 
S. 9 中的第 3 列视为由非经常性波动构成的。由于无法进一步 
再对数列进行简化处理，历史学家就必须运用其他技巧和历 
史知识来解释这些非经常性波动所以发生的原因。例知， 
1836 年大幅度增长的波动和 1837 年下降的波动可以紧密地与 
美国经济的繁荣及突然的暴跌联系起来； 1836 — 1837 年英国 
对美国的出 U 削减了三分之二。 

我们结束这一节对时间数列中波动的分析时，应当再一 
次强调，历史学家必须保证时间数列分析的假设与他自己所 
关怀的特定时间数列所作的历史假设相配合^这一必要性在 
运用移动平均数方法时表现得最为明显，为了这个原因，移 
动乎均数的一个共通用途一-获得对有关数列中趋势的认 
识——的苕效性非常值得怀疑，除非可以假定一个周期性已 
知的周期存在于这一数列之中。然而，如果时间数列分析的 
假设得以成立，那么这些方法就非常有用，它使历史学家能够 
研究时间数列中的不同成分，并分别对长期和烜期、经常性和 
非经常性的运动作出清哳的解释。 
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6.5 比率和指数的运用 


在 


分析一个时间数列时，将数列中的每一个值用一个年度 
kT 值（通常是第一年的值）的比率来表示常是有用的这 


样做，我们可以很容易知道数列中在发生些什么比例变化。例 


如在查考英 国出口 资料时，了解 1830 年， 1840 年和 1850 年的出 


口值以什么比例超过1820年的出口值是有用的，从而对出口 


值的增长得到一个印象 & 我们只要用1830年，1840年和1850 


年的每个值除以1820年的值便可以计算出这些比例，其结果 
如表 6. 10所眾。 


表 G .10 作为 1 B 20 年出口值比例的英圃本土出口 



年份 

原始值(百万英谤） 

原始值除以1820年值 


1820 

36.4 

1,0000 


1830 

38,3 

1.0522 


1840 

51.4 

1.4121 


I 860 

71.4 

1.9616 


如果我们愿意，还可以用1820年的比例来表承徵列中的 
每一个值，从而建立起一个新的时间数列，其值始于1820年的 
100 G 0 而终于1850年的1.9615。我们还可以，而且这样做将 
更为正规，不以比例而是以1820年值的百分比来表示这呰值。 
这样 1 S 2 0 年的值为 100* 1830年为105,2, 1840年为 141.2, 
1850年为 196.2。 

我们称这一过程为“以1820年=100为基年，将数列转换 
成比率形式 '以这 种形式表示数列有许多优点，主要是用比率 
比我们必须用心算把 51. 4作为36,4的一个比例较为容易评价 
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比倒变化。当时间数列的单位难于处理时 3 这一点就特别有汾 
值;比如*工资标准常以先令或便士为单位表汞,当它们以比率 
数列的形式表示时，评价它们的变化就容易得多。比率的另一 
今优点在于它便于把两个数列进行比较。例如，如果我们想要 
对 1820—1 S 4 C 年的出口增长和同一时期的进口增长进行比较， 
那么比较出口从100增抆到 141. 2而进口从100增长到168.3, 
较之比较出 P 从 3 S .4 (百 万〉 英镑增长到 51.4 (百万)英镑而 
进 O 从54, 2( 百方） 英镑增长到 91.2( 百方>英镑更为简易。 


^6.11 不同基年的英国本土出口比率数列 


句分 

炉 : 始 to 
( 打万英镑） 

1820^100 

1830^ 100 

184 0^100 

I860 - 100 

1S20 

36-4 

100 

QG.04 

70.82 

50.98 

1330 

38*3 

■105.2? 

10i1 

74,51 

53.64 

1S40 

G1.4 

141.21 

134.20 

100 

71,99 

1350 

71A 

196,lo 

186.42 

138.91 

100 


很明显比率的值取决于基年的值。从相同的原始数列中 
导出的各种比率数列随所选择的基年而不同。表 6.11 显示 
选择不同的基年对表 6.10 出口值数列的影响。 

从表 6.11 可以明显看出，不仅比率值随基年选择的变化 
而变化，而且，作为这种方法的自然结果——值与值的区间也 
随基年选择的变化而变化。因而说出口值的区间力 2.6 S (基 
年 1S50 年=100>和该区间为 5-22, 4*90 和 3.69 是同样地正 
确。基年的值越高，在比率数列巾较低值年份之间的区间也 
就越小。 

当我们选择基年并以此来计算数列值时，能够意识到这 
一点极为重要。在 具有上 升趋势的英国本土出口这类数列里， 
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选择早期年份为基年会给人一种数列迅速增长的印象（如从 
100到 196* 15), 而选择较晚期年份似乎又会使这一增长减少 
(如从 50.93 到但事实上，在比例变化方面两者并无差 
别，只是造成了一个不同的印象——至少对漫不经心的读者 
来说是如此。同样，在一个波动很大的数列里，随着所选择的 
基年是否为趋势中一个相当向上波动或向下波动的年份，比 
率数列会给人以不同的印象。 

因而，基年的选择对于比率数列的应用至关重要。很难说 
对选择问题有一个准确答案，虽则一般说来我们应选择一个 
接近趋势线的年份值^选择一个靠近数列中间的年份也是明 
智的，但不幸的是这两个要求可能会发生冲突。此外，由于需 
要运用比率去比较两个或更多的数列也常常使这个问题复杂 
起来。遇到这种情况，我们只能为所有数列选择一个使任何 
一个数列的失真度降至 S 小的基年。这是一项非常棘手的工 
作，并且对此无法定出规则。 

比率的这些欠缺必须与应用比率所能造成的清晰的真实 
好处相对比。这些欠缺可以用连同指数一起来规定原始值予 
以减少，使读者可以知道以指数形式来呈现，在多大程度上正 
改变他对资料的印象。 

在一节里迄今我们已考虑了将一个或多个时间数列分别 
转換成比率形式的情况 。 比率的另一个用途是作出联系几个 
不同时间数列的综合指数，这或许更为重要。这类指数中最方 
人熟知的例子是零售物价指数，其他在历史学研究中用到的 
是如工资标准指数，生活费用指数，等等。在考虑诸如工业革 
命时期中生活水准是否已改善或者下降这类问题.时，这些指 
敷极为重要。为回答进类间 M ， 就需将生活费用与收入或工 
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资 相比较 ，而要这样做就需作生活赝用指数和工资指数。 

对于作这类指数的方法，及其在历史学和统计学方面所 
涉及的困难的一个例子，我们将考虑 1890—1909 年生活费用 
指数的制订工作。 “生活 费用％这个名词包栝用于食品、房 
租、衣服、燃料，及杂物等方面的支出，所以我们必须考虑到每 
一项费用的 变化。 另外，其中每一项本身都由若干不同的费 
用组成^我们还必须考虑到这样的事实，即面包价格可能以 
不同于肉、鱼和其它食品费用的方式变化。然而为了清晰起 
见，让我们假定，我们已经编制了生活费用的主要成分的猎 
数，如表 6.12 所沄。 


表 6.12 1390— 1300年生活费用指数成分（基年 1300=100) 


年份 
(权数）. 

食品 

(60) 

房租 

(16> 

衣着 

(12) 

燃枓 

⑻ 

杂项 

(4) 

综合 

指数 

1890 

101 

93 

102 

8& 

抑 

97.68 

1891 

103 

94 

102 

7S 

85 

98.72 

1892 

104 

95 

101 

7S 

81 

99-20 

1893 

99 

96 

100 

86 

81 

96.80 

1894 

95 

96 

99 

73 

75 

93.08 

1895 

92 

97 

98 

71 

75 

91*16 

1896 

92 

9S 

99 

72 

75 

91.52 

1S97 

95 

9S 

9S 

73 

75 

93*28 

1S9S 

99 

卯 

97 

73 

74 

95 + 68 

1899 

95 

99 

96 

79 

76 

S3. 72 

1900 

100 

103 

100 

100 

100 

100.00 


资料来減： A. ； U 鲍利： <LS60 年以来资 B 的工资和晚入 a (A* L. Bowleg 
Wages and Income in tjie United Kingdom 3iaee 狀 ㈤ ），剑桥::剑桥大学电 
版社， 1937 年，第 120—121 ^ 


我们的任务是糌这些不同的生活费用指数合并成一个措 
数。一神方法是简单地取每一年不同指数的算术乎均数 。如： 



1 SS 0 年，我们得到的是 

100 + 93 + 102 + 80 + 89 465 … 

---二了 H 

这一做法的困难在于我们正试图编制一个将使我们能得到有 
关 1390—1900 年实际人民的生活费用变化的印象 6 然而人们 
并非都是将他们家庭收入平均迆花费到5种生活费用中的每 
一项上^大多数人在食品上的开销超过在其他需求上的开销， 
而且我们当然没有理由认为在衣着上的支出应与在燃料上的 
支出一致 ，所以 ，为使我们能够将生活费用指数应用到1890— 
1900 年生活水准变化的问题中，我们必须考虑到家庭预算中 
不同支出的不同重要性。因此只取这5项的算术平均数是不 
令人满意的；我们反之需要更多地考虑食品价格的变化而 
不是燃料价格变化的变化，因为食品价格的变化将具有更大 
的影响。 

我们通过给5项中的每一项指定不同的“权数”来达到这 
—目的。表 6.12 显示了这些权数。基本上，我们认为这一时 
期的中等家庭萑食品上的支出是在衣着上支出的5倍，因此 
食品价格上的变化应被认为比衣服价格上的变化重要5倍。 
因此，为计算每一年的综合指数，我们将每一项的指数乘以它: 
的校数，再除以加权总数（本例中为50+ 16 + 12+ 8 + 4= 100» 
但杈数并不需要合计为 1 G 0) 就得到综合指数，如表 6. 12最后 
一列所示。例如，对于1890年，我们有 （100 x 60) + (93 X 16> 
+〈102 X 12) + (SO x 8> 十 （89 X 4> = 9768,除以 100( 权数的总 
数）后，得到 97. 68,这就是综合加权生活费用指数。 

因而加权指数的计算不过是一种比较简单的算术运用 a 
-而建立这类综合指数的困难不在于其统计步骤，而在于对证 
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变化的历史学家必须能够发现“实际 1 ^ 工资，闽砍据工人必須 
购买商品的价格的变化调整过后的工资；换句话说，必须是按 
照它们的购买力来表示的工资。 

在上述2个例子中，一组 " 货币”值，无论是价格还是工资 
的，都必须经过价将指数的缩减之后才产生一组“实际”值 & 我 
们可以以表 L12 计算的生活费用指数为例了解一下缩减一个 
工资数列的情况。表 6.13 中第1列就是工资数列；它通过取 
不同职业的众多工资数列的加权工资平均数得出，其做法与 
生活费用综合指数的作出大致相同^此指数最初以1914年 


表&.13 1的 0—1900 年实际工资指数的建立 


年汾 

[ 货币工资 
(1914-100) 

货币工资 
(1&00 = 100) 

生活费用 
(1900-100) 

实陡工资 
(1900^ 100) 

1390 

S3 

S8.3 

97.7 

&0.4 

1891 

S3 

S8.3 

98.7 

89.5 

18^2 

S3 

S3. 3 

99.2 

89.0 

1893 

S3 

88,3 . 

96-8 

91.2 

1894 

S3 

8S.3 

93-1 

94.8 

1S95 

S3 

88.3 

91.2 

9S.S 

1S96 

83 

8S.3 

91.5 

90.5 

1897 

S4 

89.4 

93.3 

95.8 

1898 

S7 

92.6 

95,7 


1S99 

S9 

94.7 

93,7 

301,1 

1900 

94 

100,0 

10C.O 

100.0 


资料来源 ：货币 工资指数来自 je . G 拉姆斯博登，转引自： a b . 米切耳和 p - 
迪恩，芙国 历史统 计摘录■^第 S 46 页，生活费用指数来自表 S ,12。 


m ICO 力基数进行计算，再以1900年力基年= 100重新计算， 
弁在表屮第2列显示出来；只要把每一值除以94 (1900 年的 
值），再乘以100就可做到这一点。表 6.13 中第3列显沄综 
合的生 活费用指数。我们将生活费用指数的每一值去除以货 
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筇工资指数的相应值，再将结果乘以100就得到表中第4列 
的最终 数字。 

从表 6.13 可以明显看出，我们刚才算出的实际”工资指 
数与货币工资指数相差很大。货币工资指数从 1 S 90— 1896 
年是稳定的，接着开始上升至1900年，而实际工资指数从 
1 S 90 — 1 S 92 年是下降的，以后开始上升至 1895—1896 年，而 
后经过轻微的下降后再上升至1900年,研究这一时朗工会史 
32类问题的历史学家必须认识到这个差异；仅知道货币工资 
率大概不能作为这一时期劳工史的研究的良好 指导。 

这一节里，我们只可能讨论了若干种最简单的建立指数 
的方法，以及其最普通的用法。正如这一节已介绍过的那样， 
这些建立指数的方法的差别不茌于其基本的逻辑，而在于指 
定权数，选择基年，以及类似的问题。因此，面临涉及指数的 
困难阿题的历史学家应根据这一节里已介绍的 逻辑概 念査阅 
本书开列的有关参考书之一 e 
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变量之间的关系 


#前几章里我们已经讨论了历史学家所使用的大部分计 S 
ft 方法；直到最近才有少数有关历史的著作和文章应用了 
比我们叙述这的诸如频数分布、集中趋势或离中趋势的测度 
方法，以及时间数列分析更为复杂的统计方法。人们应用这 
些统计方法己写出了太量重要的历史著作。 可 是一个打算运 
用计量方法的历史学家不应当仅停留在这一阶段上，而应进 
一步运用其他可以帮助他分析历史材料的、更为复杂的方法 a 
在本书中不可能对所有这些方法加以讨论，因此在本章里我 
们将集中于探索在撰写历史中的主要问题的技术——即两组 
历史事件之关系的问题的方法。这些方法将被列入“相关与 
回归技术”的总标题之下加以讨论。 

历史学家所讨论的很多问题可以被概括成是否存在着一 
种“关系”的问题。例如，我们想知道在我们对1907年航运业 
的研究中船员人数与动力类型之间，或 168 S 年收入~社会尬 
位之间，或1086年牧猪数量与草地面积之间，或下议院的一 
次投票结果与另一次投票结果之间，或19世纪英国出口与 
进口之间是否存在萼一秤关系。我们问是否存在着一种关系 



的目的不过是想要了解两个或更多事件彼此之间是否完全不 
相干，或者是否它们之间存在着某种联系，不论微细到什么程 
度 6 判定了是否存在着一种关系后，我们就可以进一步充分 
了解这一关系的强度和它的形式。例如，我们问这种关系是 
否强烈得当 A 发生时 B 必然随之发生，或者较弱到在 A 发生 
时的大多数（但非一切）情况下 B 也随之发生。我们问这种关 
系是否具苟 A 增加 B 也增加这种形式，或者是否关系正相反， 
即当 A 増加时 B 却减少了。 

现有的大置统计方法可以帮助我们回答这类问题 & 然而 
重要的是认识，只有当我们运用了自已的历史知识提出有意 
义的历史问题时，这些方法才能帮助我们。例如，完全有可能 
用这些统计方法去检验下院投票与月相之间是否存在着一秤 
关系，而由于巧合，两者之间根可能存在着某种统计上的联 
系。然而，这种联系没有任何历史上的意义，对历史学家来说 
只是一个没有价值的结杲。问是否存在着这样一种联系本身 
就是个愚蠢的问题，而当然我们也只能得到一个愚蠢的结果。 
换句话说，在我们应用相关和回归法之前，我们必须能够明确 
我们怎样认为两个变量之间可能存在着联系，然后再看统计 
论据是否支持我们的理论；我们必须能够用历史学的和统计 
学的语言来描述这种可能的关系， 

实质上，对于两个或更多的历史事件之间的关系我们可 
试图回答3个问题。它们是： 

1. 是否有关系？ 

2. 关系的强度如何？ 

3. 关系为何种瑕式？ 

下而让我们来讨论能够帮助我们回答上述问题的统计方 
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7.1 是否有关系？ 

、 p 我们设想，作为一个历史研究的结果，我们认为一系列事 
K 件与另一系列事件相关联。换句话说，我们有这样一秤 
形式的 假设： “我认为变量1与变量2相关联\在某些情况 
下，这种假设可能并不重要而且毋庸证明；“在都铎王朝时代 
的英格兰叛国者的斩首和他们的死亡有关”的陈述就属于这 
类假设。大多数渉及关系的令人感兴趣的假设都不会是这种 
形式； 因为它们不能根据人没有脑袋就无法生存的生理学法 
则来验证，而需要更复杂的证据 t 

通过将变量1与变量2相关联这一假设与变量1与变躉 
2毫无关联的另一假设相对照，我们可以很容易处理怎样证 
明“变量1与变置2相关联”这一假设的真实性问题。这另一 
个假设与"变量1与变量2不相干”的假设是相等的，根据这个 
假设，我们的意思是说我们在变量1的一个值与变量2的一 
个值之间不朗望找到关系（除了两者同属某一事例的微细关 
系之外 K 另外一个相等的假设为"对同一事例，变量1的一个 
値在预测变量2的值时根本不能给我们帮助、例如，我们可 
以用假设“船员人员与船的规模相关联^去对比下面另一假 
设—— " 船员人员与船的规模 无关％ “船员人员与船的规模不 
相干”，以及“知道船员人数根本不能帮助我们预测船的规 
模"。 

用这逵替代的假设来重述我们的最初假设，其价值在于 
我们可以在调査两个变量之间的关系时进一步何 t “如果两个 
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变量确实彼此不相干，资料集会呈现出什么样子？"实际上，茕 
们根据变量之间彼此不相干的假设建立起了另一个资料集 i 
并用以与我们以两个变量是有关的首先假设为拫据的实际资 
料集相对比。如果实际资料集与假设资料集看来很相似，那 
么我们或许就会得出如下结论 * 完全可以设想两个变量毫无 
矣联。如果两个资料集相差悬殊，那么我们还是设想两个变 
量之间大槪存在着某种关系为可靠。我们仍不知道这种关系 
为何种形式，只知道资料不支持没有关联的假设。以我们的商 
船研究为例，拫据变量之间彼此不相干的假设我们建立起另 
—个资料集，并用它与实际资料集相对比；如果我们发现两者 
很不相同，那么我们便可以认为船员人数与船的规模之间存 
在着某种关系。此外，部分通过进一步的统计工作，部分拫据 
历史知识，我们可以继续考查这种哭系可能是由什么所引起 
的 。 

为了能够进行这一真正的资料集和假设的资料集的对比 
过程，我们需要做两件事。我们需要建立另一假设资料集，而 
且我们还需要判断这一假设资料集是否真正地不同于实际资 
料集 & 我们将讨论这样做的2神方法。第一种方法为计算列 
联系数不论是定名、定序和区间类型的资料都可适用；第 
二种方法为计算相关系数丑，它只适用于区间类型的资料。我 
们不打算讨论其他几秤适用于定序资料的方法；因为定序资 
料在历史研究中较力罕见，因此这些方法不大会常用 d 

然而应该指出，有时当资料貌似区间类型但又不能完全 
肯定时，应用适用于定序资料的方法是明智的。第一章中引用 
的格列髙里 * 金有关收入和社会地位的资料就是一伊 L 在这 
种情况下，定序方法可以作为一种安全措施来应用，其结果可 
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以同那些从适用于区间资料方法所得的结果相比较。有关商 
应用定序资料进行检验的信息可以很方便地在一本非常有价 
值的书中找到，它就是 S . 西格尔的《行为科学的非参数统计 
学》。 

我们将首先考虑列联系数 C 时计算和解释；顾名思义，它 
最常用于决定已制成列联表形式的变量之间是否存在着某种 
关系 p 我们可以通过用一个取自英国政治史的筒单例子来最 
清楚地说明其用途。在1841年选出的国会中，国会议员对各 
自政党（自由党和保守党）的忠诚相当强烈，但在某些问题上， 
其他的忠诚超越了政党的束缚。例如，在 1345—1346 年有关 
废除 《谷物法》 的问题上，很多保守觉议员投票反对保守党领 
袖及总理罗伯特 ■皮 尔。因此，去发现在国会对其他问题的 
投票是否遵循着政党路线是烧有趣味的。例如，我们可《调 
查1344年对有关棉纺厂童工每日工作时间是否应被限制在 
10小时以內问题的最后辩论和表决中，政党束缚是否决定着 
投票行为。在那次表决中，94名自由党议员和100名保守党 
议员投蘋赞成限制，而56名自由党议员和135名保守党议员 
投票反对。这次投票的情况在表 7.1 中以左边的列联表彫式 
列出。 

我们对在这个问题上议员投票是否与政党束缚有关感兴 
趣。因此我们的最初假设是政党束缚与投票相关联，而另一 
假设为政党约束与投票互不相千。为了在这两个假设之间进 
行抉择，我们需要以政党与投票无关的设想为根据而建立另 
一个投票型式 I 此后我们便可将实际投票型式与假设投票型 
式进行対比。 

例如，如果自由党议员中投票赞成此议案的比例远远大 
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表 1 1844年幻0小时议案 》 的实际和假设投票 



观察投票数 

期望投票数 

赞成 

反对 

总计 

赞成 

反対 

总计 

自 rti 党 

^ 94 

56 

130 

75.6 

74.4 

150.0 

保守党 

100 

135 

235 

118.4 

U 6.6 

娜 .0 

&计 

191 

道 

385 

194,0 


3 S 5.0 


资料来 掠： O. 艾德 洛特： ，9世纪40年代英国下议院的投票型式 "（W. 
O. ^ydelotte, £ Voting： patterns in the Uritiak Hous& o£ Commons in 
1840 a 1 ), 载*社会和历史的比较研究> (Comparative Studies in Society and 
History) 第 5 卷 (1963), 第 134—136 K ，衰3， 

于所有议员投票赞成它的比例，那么我们自然会猜想对自由 
党的忠诚很可能会产生赞成此议案的投票。对比之下，如果 
在这个问题上政党朿缚根本没有影响投票行为，那么我们会 
期望发现，投票赞成此议案的 A 由党的比例将与所冇投票赞 
成的议员的比例大致相同。这个根据常识的对比，提示我们 
诙怎样建立起自己的假设投票型式，设想政党束缚与投禀行 
力之间没有任何联系， 

在这次表决中总共葙385人参加了表决，其中194人即 
50. 4匁投票赞成，而191人即 49. 6%投票反对。在投票的385 
人中，自由党议贤为150名，其余的235名为保守党议员。先 
来看自由党议员，如果自由党束缚与此次议案的投票毫无关 
联，那么我们期望大约应会有50_4%的自由党议员投票赞成 
敗议案 * 而 49. 6%的自由党议员反对^ 

算出 ISO 的50.4%为 75. 6,我们认为，根据苘变量之间 
彼此不相干或没有联系的假设，应会有 75*6 名自由党 议员投 
票赞成此议案而不是实际投票赞成的94名 。 75.6 这个数字 
被称为投票赞成此议案的自由党人的 * 期望值 w (在彼此不相 
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干的假设下所期望的）； 94这个数字被称为“观察值' 

然后我们可以像表 7_1 那样计算其他可能的政党束缚与 
投票行为的组合的期望值，并可将其结果整理成列联表的形 
式，对比“期望的”和“观察的”投票型式。注意在表的左右两 
边我们计算并给出了行与列，以及它们的总和。这有两个用 
处=其 一 ，它使我们可以通过保证行和列的总数与在原始资 
料中的相一致，检査期望值_的计算；其二，它为我们提供了一 
个计算期望值的简便方法。这是因力表中每一单元的期望值 
都可以通过它所在的行的总数乘以它所在的列的总数，再除 
以总和的结果而计算出來。例如，对投票赞成此议案的£1由 
党议员釆说，其期望值得出为 


150 x 194 

" ~~ 3 S 5 _ 


-75,6 


这与我们以前所获的结果一样。 

现在我们已经完成了任务的第一歩，即根据投票行为与 
政党束缚之间没有关系的假设建立另一个假设的资料集。第 
二步我们应比较观察和期望的投蕻数，以决定哪一个假设（即 
变量之间有关系或变量之间没关系）最令人满意。我们通过用 
表中每一单元中的观察投票数减去表中相对应单元中的期望 
投票数，将其平方以去掉负号，再除以此单茺中的期望值并以 
—种相对的形式表达其结果来做到这一点。然后将所有结果 
求和，得到一个被称为 f 的量，读为"卡方'记为4方”。对 
于表 7.1 其计算结果为 

a <94-75-6) 2 (5 S -74.4) 2 

7576 fO 


.(100-118.4> a . 

nx4 


(135-116.6)^ 
116.6 


= 14, & 
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因此# 公式的一般形式为 




R C 


(Oij ~ 


这里 B 是行数，<7是列数， S 为行下标， i 力列下标， 0 4i 和 
^ 分别为每一单元的观察值和期望值。 

在像表 7.1 这样只有两行两列的列联表的特定情况中， 
上述的一般公式会产生一个夸太了的卡方。因此我们必须使 
用另一个更简便和更准确的公式。如果我们像表7_2那样标 
记一个 2 X 2 列联表的单元，卡方可用以下公式得出 


z 3 = 


A 7 { }JD^ BC\-^y 


B) (C^- D)(B^ D) (A-\-0) 


(在这个公式里，I』乃 -BOl 表示 AD-BC7 的“绝对值”；即我 

H 不顾符号弁把整个项视为正数，即使那 太于 AD )o 

对于表 7.1 中的资料，用此公式计算的卡方为 

385( | (94 x 135) — (56 x 100) | -3 S 5/2) 2 
<150 x235x"194 xl 91) ' 

^14.02 


这另一公式必须用于 W 太于40的 2 X 2 列联表。如果这 
个条件不能得到满足，应査阅西格尔®书中的另一种方法 & 

由于我们有一个 ^-385 的 2 X 2 列联表，在进行下一步 
计算时，我们将应用一个卡方等于 14.02 的值计算列联系数 
C 通过一个简单的公式将列联系数 C 与卡方联系起来 


① 西格尔的*行力科学的非参数统计》 C ^ onpar^metric Statietioe , 

for the Behavioural 抑 ces ), 纽约： 麦可喜图书公司 s 1956年，第110 页， 
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表 7.2 标记 2 x 2 列联表的单元 



^ / X s 

° 口 V 


因此，对于我们的资料 





14.02 

385 + 14702 


- 0*1375 


现在我们必须以我们想要发现政党束馎与对;< 10小时议 
案》的投票行为是否存在着某种关系这一点出发来解释这一 
结果如果我们回到计算卡方的第一个公式，可以看出，若实 
际资料与假设资料完全相同，以致观察值等于_值, f 的值 
将为零。如果我们来看计算 G 的公式，若卡方为零，那么 C ? 也 
将为零 D 

实际上我们已经得到一个非零值的<?，表明实际投票型 
式与假设投票型式彼此不同。因而投票型式不支持政党约束 
与投票行为无关这另一假设，我们也可以断定在有关《10小 
时议案》的表决中投票行为与政党束缚之间存在着某种联系。 
应该指出，迄今我们还没有考虑过这一联系强激到什么程度 
和它的形式如何，也没有考虑过可能与投票行为有联系的其 
他因素；在本章的后面我们将回到这些问题上来，现在我们只 
关心是帝存在着某种联系。 

因而列联系数提供了一神使我们可以用一个建立在变量 
之间没有联系的假设之上的资料集与实际资料集相对比的方 
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法。它是一个可 y 广泛用于不同类型资料的测度方法。然而， 
当资料为区间类型时，我们可以换用另一种方法——相关系 
数。这一测度方法应用了区间资料给我们的豳外信息，而且 
它在较髙级的统计工作中亦有很大用处；由于这两个原因，当 
我们的资料为区间类型时，宁愿选用而不是 C。 

我们将通过第四章里的商船例子来考虑及 （其 全称为“皮 
尔逊积矩相关系数”）的计算在商船的变量特征巾，我们列 
举了船的吨位和船员人数。研究这一时期 （1907 年左右）航运 
史的学苦会知道其间存在着一个商船平均规模増加的趋势。 
这一趋势有可能增加了对船员的需求，即较大的船需要更多 
的人来操纵;另一方面，也有可能这一增加的规模大部分为载 
货舱位，而对船员需求的増加并不像对岸基货物搬运工需求 
的増加那么大。因此，考査表 4.1 的资料中船的吨位与船员 
人数之间是否存在着一种联系是令人感兴趣的^ 

最初假设为存在着这样一种关系。另一种假设为吨位与 
船员人数互不相干。首先让我们考虑，对于每一个假设我们 
会期望资料呈现出什么样子如果船员人数与吨位相关联， 
那么我们会期望对有关一艘特定商船的变量之一的了解，会 
便我们得到这艘船另一变量的大概信息，不论它是多么粗略。 
例如，我们大致期望大船拥有大量船员，小船拥有小量船员。 
对两艘船进行比较，一艘船的吨位为另一艘船 的两倍 ，那么我 
们甚至可以期望它拥有的船员也比另一艘船太致多两倍。 

与此对照，如果船员人数与吨位完全不相千，我们则不会 
期望一个变量的髙值会与另一个变量的髙值相联系。确实， 
对子每一个吨位值，我们会期望出现船员人数的分散值，有的 
较髙，有的较低，有的居中 t 了解吨位甚至不会给我们以任何 



方式的帮助去猜测船员人员的多少。 

当我们在区分这两个假设时，我们已描述了一种两个变 
量相关联的可能情况，在这种情况中，如果吨位高时，船员人 
数也高；对于另一种假设，则如果吨位高，船员人数可能高，也 
可能低。但立即生起的问题 是：“ 髙或低意味着什么' “我们 
怎样衡量这些相对的概念”？我扪记得，一种判断一个变量的 
特定值是高还是低的方法，即是发现它是否高于或低于此变 
/量的平均数，以及偏离平均数多远。因此，我们可以换一种说 
法来说明上述两项假设：第一，如果两个变量相互关联，我们 
会期望高于吨位平均数的吨位会与高于船员人数平均数的船 
贝人数相联系。第二，如果两个变量之间彼此不相干，那么高 
于吨位平均数的吨位既很可能随伴低于 船员人 数平均数的船 
员人数也很可能随伴髙于它的船员人数。根据变量之间彼此 
不相干的假设，部分资料集可以看来像表 7*3 所表示的那神 
情形。 


表 7. 3 根据变 S 之间彼此不相干的假设，假定的商船资料 


綱 

A ： 与吨位平 
均数的关系 

氏 与船员数 
平均数的关系 


1 

高于平均数 （+) 

低于平均数 （_) 

一个负数 

2 

等于平均数 （ C 0 

等于平均数 （ 0 > 

零 

3 

髙于平均数 

高于乎均数 （+) 

一个正数 

4 

低于平均数（-） 

低于平均数（一） 

—个 JE 数 

& 

低于平均数（一） 

高于平均数 ) 

—个负戈 


对于每一艘船，若我们用它与吨位平均数的偏差2乘以 
它与船员人数平均数的离差万，我们将有时得到一个正量，有 
时一个负量，送取决于表 7. 3中所表示的哪种情况适合于一校 
特定的商船。在长期中，这些正的和负的量将趋于相互抵销， 
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奴致正的和负的量之和，即种秤乎均数偏差的积将接近于零。 

另一方面，如果两个变量之间相互关联，我们或许会得到 
一个如表 7 U 表示的情形。 

同样，在长期中 ，一 个如表 7.4 所表示的情形将所有偏差 
求和以后会产生一个很大的正数值。 

表 7.4 根据变 董之间 有关系的假设，假定的商船资料 


商船 


4:数爲%平 J 均溫 ® 



B 


1 

2 

3 

4 

5 


高于平均数（―> 
高于平均数 （+) 
等于平均数 （ 0) 
低于平均数（-） 
高于平均数 （+ ) 


高于平均数（十） 
高于平钧数 （+ ) 
等于平均数 k 0) 
低于平均数 （_) 
窩于平均数（十） 


一个正数 
一个正数 
零 

一个正数 
—个正数 


这提示决定两个变量之间是否有联系的一种方法，就是 
检验每一个案中每一变量与它们各自的乎均数的偏差之积， 
并将所布个案积求和的结果。如果此结果接近于零，则很可 
能两变量之间没有联系，但是如果结果远离零，则杳理由认力 
存在着一种关系。 

因此，为了发现两个变量是否相关联，我们可以从看每一 
个案中的每一变量与平均数的傰差开始 & 我们将用一个公式 
进行计算 

若计算结果为零，我们大可假定两变量之间没有联系。然而， 
若计算结果不为零，将会出现个案越多结果很可能越大的困 
难；如果变量用数百万而不是数百来表汞，其结果也会较大， 
黾然比例偏差可能无异。为便于不同资料集之间的比较，我 
们可以把结果先除以个案数，再除以每一变量的两种标准差 
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之积。这样就消除了具有不同个案数的影响，以及某些围绕 
平均数有一较大散布值的资料的影响^ 

下面是计算积矩相关系数 K 的公式： 

scx-^xr-F) 

Ns x s v 

这里 k 为一变量的标准差，〜为另一变量的标准差。如果两 
变量之间没有关系将得到一个零值；如两个变量之间有关系 
将得到一个大于或小于零的值。 

如果记得 Z 的标准差是得自 


/( 


N 


我们可以重写 求五的 公式为 

_ F) 




V 


N 


这个公式还可以写成更简便的形式，不再需要计算平均 
数的偏差，如 

R _ 

= ~s/ c-V2 ： r a ™ (sry]) 

而表 7. 5 显示从表 4.1 的商船资料中计算 12 的过程。 

如表 7. 5 所汞，商船资料 的丑为 非零值，因此我们可以断 
定实际商船资料不闻于拫据两个变量之间彼此不相干的假设 
所建立起来的假定资料。在计 算及的 过程中，事实上我们并没 
有像计算列联系数 G 那样建立起另一个资料集，但原理是一 
样的一一用一个假定资料集与一个实际资料集相对比，对于 
这两种测度方法，实质上我们所问都 是:" 我们现有的资料集是 
否与若干变量之间彼此不相干时我们会期望的资料集 不同尸 


* 143 * 



^ 7.5 根据表 4.1 中的资料计算相关系数 H 




官方号码 

船员人数 r 

吨位 X 

Ta 

X 3 

XY 

1697 

3 

44 

9 

1936 

132 

2640 

6 

144 

36 

20736 

861 

B 5052 

5 

150 

25 

22500 

750 

621595 

8 

236 

64 

55696 

13 S 3 

73742 

16 

739 

250 

546121 

11324 

86658 

15 

970 

225 

940900 

14550 

92929 

23 

2371 

529 

5621541 

54533 

93086 

5 

309 

25 

954 S 1 

1545 

91-546 

13 

679 

169 

461041 

8827 

95757 

4 

26 

16 

676 

lot 

9 G 414 

19 

1272 

361 

1617984 

2416 S 

99437 

33 

3246 

10 S 9 

10536516 

10711 S 

9 S 195 

19 

1904 

361 

3625216 

3617 & 

107001 

10 

357 

100 

127449 

3570 

109597 

16 

1080 

256 

n 66+00 

17280 

113406 

22 

1027 

481 

1054729 

22594 

113685 

2 

45 

4 

2025 

90 

113689 

3 

62 

9 

3 S 44 

136 

114424 

2 

68 

4 

4624 

136 

1144 的 

22 

2507 

484 

6285049 

55154 

115113 

2 

138 

4 

1 S 044 

27$ 

115 H 9 

IS 

502 

324 

252004 

&036 

113357 

21 

1501 

441 

2253001 

31521 

118 B 52 

24 

2750 

576 

7562500 

6600 0 

123875 


192 

81 

36 S 64 

172 S 


2Y- 320 = 22319 SY £ - 5932 =42313 977 £XY - 470050 

_A^xr-sxsr_ 

" N /CC^ZX^(ZX)*X^^-(E3 r ) 1 ]) 

=_25(470050) - C3S0)(23319)_ 

_ x/[(25(42313977) — 2231&)(25(5&32)-320 3 )] 

= 0 t 9093 # 




如果 (7 或 i 2 为非零值，那么这个问题的咎案将为“是 s ，而且 我 
们赍定变量之间彼此不相干的假设 * 而赞成变量之间有联系 
的 假设， 

7.2 关系的强度如何？ 


上一节里我们讨论了如何确定两个变量之间是杏有关 
^^系。正如我们指出的那样，它并没有详尽无遗地回答有 
关变量之间关系的所有问题。我们感兴趣的第二个问题是 t 
“关系的强度如何 

对于这一问题简单的，却过于简单的，答案即是 O 或及与 
零相差越远两变量之间的关系越强。尽管这是对的，但它并 
不是对问题的一个完整的答案，因为若两个变量绝对相关，人 
们还想知道 C 或丑的值是多少；绝对相关”意谓两个变量之 
间存在着某种固定的关系，如知道了某一特定个案中的一个 
变 fi 值就能使人精确地知道此个案中另一个变量的值是多 
少。规定出了 C 或及可能达到的值域，即从彼此不相干到全 
部相关，人们就能判断出任何一个特定资料集中的关系的强 
度，还能以各自所展现出来的变量之间关系'的强度来比较苘 
个资料集。 

如果我们考虑列联系数我们发现，正如我们知道的, 
当变*之间彼此不相干时会产生一个零值。不幸的是， O 的 
最大値取决于列联表的规模。对于一今 2 X 2 的列联表，变量 
之间的绝对相关将使 C = 0.7(> 7 ; 对亍一个 3 X 3 的列联表 ， C 
的 S 大值为 0. S 16。 了解了 这一点 我们便可以说，在我们的例 
子里，政党约柬与对《1 C 小时议案》投票行为的联系， 
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心 1875, 是相当微弱的，在 2 X 2 列联表 C 7 的允许值域中处于很 
低的位置。然而，我们不能用一个 2 X 2 的列联表的 t ? 去和一 
个3 X 3 的列联表的 C 相比较，而且我们不知道行数与列数不 
等的列联表 O 的最大值是多少。这些是列联系数和基于 V 
来研究变跫之间关系裎度的其它测度方法的严重缺陷，因此 
在本文中叙述列联系数并不是由于它是一个理想的测度方 
法，而是由于它也许是最常使用的测度方法，并由于在它的计_ 
算中的逻辑构成了许多其他检验方法的基础。想要应用这类 
裣验方法的历史学家，因此极应考虑参考书目开列的著作中 
所叙述的其他检验方法。 

然而，如杲我们的资料为区间型，则较为幸运，因为相关 
系数 S 的允许值域是被清楚地限定出来的> 若变置之间没有 
关系 A 将为零，若变量之间是绝对的 和正的 相关， B 的值则为 
+ 1，若变童之间是绝对的和反的相关，则的值为-1。正相 
关的含义为如果一个变量有一个髙值，很可能另一个变量也 
会有一个高值 f 反相关的含义为如果一个变量有一个高值，另 
一变量却有一个低值，反之亦然。由于五的允许值域如此清 
晰，我们可以说从资料中得到的值越接近于+ 1或 -1, 变量 
之间的关系就越密切。并由于 B 的值域不取决于个案的数 
目，我们还可以直接用一个资料 集的及 值同另一个资料集的 
丑值相比较。 

我们有关商船吨位和船员人数的资料已得出一个 it 等于 
+ 0.9093 的值。它表明在我们所用的资料中，这 M 个变量之 
间存在着一种相当强的正关系。如果这些资料对1907年的所 
有商船具有代表性，那么我们可以说对于1907 年的所苻英 
国商船来说，吨位与船员人数之间存在着一种很强的关系；不 
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过，这是下一章里所要考虑的一个单独的问 题。 这里，必须强 
调指出，一个资料集中一个特定22的存在，并不意味着相同的 
及，或者一个相同的关系，存在于所有同类的资料之中。 

由于来自不同资料集的及值可以直接进行比较，我们通 
过计算其它年份吨位和船员人数之间的相关系数，可以继续 
对商船进行考查，以观察吨位与船员人数之间的关系是否随 
着时间推移而加强或 减弱。 然而，在做这项工作之前我们应 
该对及 B 的不同值的确切解释十分清楚，在下一节里对此 
将进一步加以讨论， 

7.3 关系的形式 

： j ^若干 历史问題中，仅仅试图证实两个变董相关，并判断出 
#这一关系的强度就足够了。只要这一关系相当强，而且 
历史学家相信这并不是一种巧合（我们在下章谈这一问避）， 
他就可以运用自己的历史知识去解释这一关系的历史含义。 
然而，在很多事例中，注意力并不集中于关系的存在，这可以 
假定或是自明的，而倒要集中于关系的确切形式。 

例如，一位研究经济史的学者可以正常地假定，一神特 
定商品的制造量与它的出售价格之间存在着某种关系。因此 
他将不特别感兴趣于证实这一关系的存在，而将想要查考价 
格怎样精确地随着出售的商品数量而变动。与敗对比，一个 
研究19世纪政治史的学者会认为证实国会议员按照政党束 
缚而投票其本身就是对知识的一个重要贡献。从这些例子可 
以看出，确定关系的哪一个特征是感兴趣的，其主要因素之一 
就是人们对此关系在理论上和经验上的认识情况。然而，可 
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以认为所有研究，无论从什么理论或经验的基础出 发0 其目标 
都是尽可能多地去发现，而在这一节的其佘部分我们将在这 
基础上继续讨论 & 

首先让我们问何为两个变量之间关系的形式^我们是意 
指两个变量发生关系的方式，通过回答下列问题我们将发现 
它： u 关系力正相关还是反相关？”，“变量尤需变动多大才能在 
变量: r 屮产生变 化？” ，“能否以变盘叉的变化来解释变 ar 的 
所有变化，或许还牵涉到其他因素 rT 

如果我们的资料为定名类型，已在列联表中分类并用列 
联系数或相似的测度方法分析过，那么上述问题或则不适用， 
或则不可能为统计分析的任何具体方法所解答。与相关系数 
不同，列联系数总是一个正值，因而其计算不能告诉我们两个 
变量之间的关系为正相关还是反相关 & 但事实上并不需要用 
—个试验来告诉我们这 一点； 如果想知道作为一个自由党议 
员是否与投票赞成《10小时议案》正相关，只需直接观察投票 
结果即可。然而，若问总的来讲政党朿缚是否与对《10小时议 
案》的投票正相关或负相关却毫无意义 ； 这两个变量既可以相 
关，也可以无关，而我们用已经讲过的统计检验方法去査明这 
点。 


然而，统计分析可対确定两个定名尺度变量之间的关系 
的形式是重要的一个问题给予很大帮肋。我们已用这一提问 
考虑过有关《10小时议案》的投票，政党朿缚在决定对此法案 
的投栗是否重要？"然而在肯定是重要时，我们并未考虑其他 
对议员起作用的因素是否也具有同等或甚至更为重要的意 
义。事实上，我们可以期望政党束缚将是议员需加考虑的一 
个因素，但他也会有一定的“思想”见解，它有时会使他反对自 



己的政党。出于对保护英国农业的重要性的哭心， 1 S 46 年很 
多保守党议员反对皮尔，就是一例。假如作为个別或集团的 
议员除了对他们的政党忠诚以外还有共同的“思想％那么就 
有可能通过研究议员们对一系列问题的投槊而认明这些思 
想。帮助解决这类历史问题的方法被称为古德曼标度方法， 
它对联列资料进行检验，看是否存在着一系列争端，并根据 
他们在毎一争端上的投票，理想地把他们 S 于这个系列的相 
当地位上 & 对所有争端投赞成票的议员将归于尺度的一端， 
对所有争端投反对票的议员归于另一端，赞成一些争端也反 
对另 一拽争 端的议贝将被置于尺度的中间位 E 。 如果在资料 
中可以辨认出这类尺度，像艾德洛特教授在他对19陡纪40年 
代英国议会的研究中所做的那样①，那么仑可以为下议员的 
投顼行为，以及，冋到本节的主题，对一个争端的投票和对另 
一个争端的投票之间的关系，提供存价值的信息。 

然而除了古德曼尺度这类方法，对定名资料关系形式的 
辨认很大程度上取决于资料及所研究的历史问题的性质。参 
考书目中列举的一些研究，显示了在这个问题上可以采用不 
问的方法。 

另一方 W ， 当资料力区间类型时，可利用的统计方法要多 
得多，我们可以试图用儿种方法相当有把握地回答本节中早 
先提出的冇关两个变量之间关系的彤式的问题。对于区间资 
料，运用相关系数使我们能眵确定两个变量之间是否存在若 
一种关系，而相关系数的符号告诉我们这一关系为正相关还 
是反相关。例如，从商船的吨位和船员人数的资料计算五，显 


① W . O - 艾徳洛特：同前书，箄 1 S 4 — 163 苽 
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，示两个变童之间存在着一种关系，而且是一个相当强的正•枏 
关关系 +0.909 S ), 当吨位增加时，船员人数也随之增加。 

然而，相关系数及其符号，都没有明确地向我们提供很多 
有关变量之间关系的确切形式的信息。例加 P 它们并没有告 
诉我们一艘商船的载货量要靖加多少吨位才需要一名额外的 
水手来帮助操纵此商船 & 可是，这类信息是有价值的；若我们 
对航运 &中商 船规模的增加对雇用海员的影响感兴趣，我们 
就需要这一信息。与此类似，有关 1870-1914 年间英国工败 
的主要争论之一涉及人均产出增加还是减少 f 有关一瞍特定 
规模的商船需要多少船员的信息与这些资料相关，当这些资 
料可用以与更早些年代的资料进行比较时更是加此。 

我们需要了解的是吨位上升与船员人数也上升之间的关 
系。 我们应能够回筈诸如这样的问题：“吨位霜要增加多少才 
产生增添一名船员的需求阌 7.1 表示的是以水平轴为吨 
位、垂直轴为船员人数的商船资料散点图。从图中可以看出， 
我们方才所问“吨位平均必须上升多少才产生对一名额外水 
手的需求?'等于问："沿水平轴移动多远才能在垂直轴上上 
升一个单位？”可以记得，它很像当我们在时间数列资料中计 
算线性趋势时所考虑的问题 t “我们必须沿代表时间的水平轴 
移动多远才能在垂直轴上引起上升？ ”这一相似提眾我们可以 
用拟合一条尽可能接近资料集各点的线这一同样的方法去回 
答羌于吨位与船员人数之间关系的问题。 

可以记得，我们是通过最小平方法来对时间数列资料拟 
合了一条线。这一方法同样适用于目前的 问题； 截距项《具 
有完全相同的意义，它是拟合线在水平轴的零点上面与垂直 
轴相交的一点。斜率6在这里代表倍数，人们只有在吨位中 
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的变化乘以这个倍数以后才能发现船员人数的相应变化，正 
如在时间数列的例子里，它代表为发现出口的相应变动、年份 
变化所必须相乘的那个倍数 p 而且，与时间数列的例子一样，. 

最小平方法公式的应用使得我们可以写出等式 

^ = a + 

这里 0 为截距，&为斜率， K 为船员人数， Z 为吨位数。 

表 7.6 显示应用最小平方法公式对商船资料的计算，结 
果我们可以用数值填入式中的〃和6,并说明吨位与船员人 
数之间的关系用下面的等式来描述 

F=5,44Sl + O,00S2X 

此等式所描述并拟合于资料的这条直线，在图 7.1 上显示出 
来* 


表厂&裉据表 4.1 和 7. 5的资料计算回归线 


b 


ZY^320 I ： Y 3 =5932 

2 ： X- 22319 42313977 

2XY-470060 


NBXY^-LX^y 11751250-7142080 

= 25(4231-^977) - 493137761 


= 0.008235 


320-IBB .7970 
N = 25 


= 6.4481 


回归线 0.00S2X 


这个把一条直线拟合于一个资料集的过程被称为"把线 
性回归线: r 拟合于 x ” 称“把 F 回归干在上面的例子 
里，我们氐把船员人数回归于吨位。我们只要把船员人数称 
为变量 z ， 把吨位称为变量 f 就能完成把吨位回归于船员人 
数的另一过程。然而，这没有什么历史学意义。看来极有可 
能性的是1907年船东们先建造他们想拥有的一定吨位的船， 
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然后再寻找操纵它们的船员 I 看来极不可能的是先找到一批 
船员，然后再建造一条适当规模的船来雇佣他们。换句话说， 
从 历史学上讲，看来船员人数很可能取决于吨位数而不是相 
反，因此我们应试拟合一条回归线以回答这样的 问题： 船员 
人数精确地在多大程度上取决于吨位数 ，因 Jifc 变量 F ， 即这 
一案例中的船员人数，被称为“因变量”，而: r 变量所依赖的 z 
变董被称为 ‘‘自变量' 我们根据自已的历史知识来选择哪一 
变量应被认为因变董，哪一变量为自变量。 

通过把回归线 f 拟合于 X ，我们刚才得到的回归等式: 
S .44 8 1 + 0.008 2 X 告诉我们吨位与船员人数两个变量之间 
按平均数计算的关系。事实上，这条回归线是对 关系的 估计； 
它是根据我们得到的资料所能做出的最佳佔计，怛是我们必 
须承认它仅是一个估计而己，因为这条回归线并未恰恰穿过 
所有资料点，而只是尽可能地接近它们。因此，我们需要了解 
回归线在多大程度上接近资料点，也就等于了解对变量之间 
关系的这一估计有效到什么程度。 

如 果对资料点的"拟合”根接近，因此估计有效，我们将有 
心 地说： 按平均数计算吨位每増加1吨即产生对 0.0082 
名船员的需求”（或者更方便地说“按乎均数计算吨位每增加 
1000吨产生对 8*2 名船员的需求如果拟合较差，那么我 
们就不会如此充满信心，并在描述商船规模的变化对劳动力 
的影响时较少把握。 

相关系数是对资料回归线的拟合有效度的一种测度方 
法。如果资料点都落在一条直线上，因而吨位越高船员人数 
也 越高，则相关系 数将为 1。随着资料点偏离回归线，相关系 
激将趋于零。正如我们在相关系数 +0.90 S 3 这个例子 
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里所看到的那样，变量之间的关系相当强，回归线对资料点皎 
拟合也相当有效。 

另一种考處拟合有效度的方法是考虑 X 对 K 回归线的 t 卜 
算在多大程1上有助于我们解释: T 的变异。如果我们回想时 
间数列的例子，我们记得，在时间数列中我们计算了线性趋势，， 
并得到了趋 势值。 于是我们同意这些趋势值苽被认为是代表 
由时间流逝所决定或解释的那部分时间数列，因此我们从时 
间数列中减去趋势值 f 这一相减的结果被视为受其他因素，诸 
如周期性波动，所影响的那部分时间数列。当然，我们所谓“时 
间流逝是指一整套变化条件，它在时间数列中用年份的流逝 
来 表示。 

类似地，我们可试将船员人数）的变化分为两个部分， 
第一部分以吨位的变化来解释，第二部分归因子其他因素。用 
吨位解释的那部分将以回归线来表承（正如用时间解释的那 
部分以最小平方趋势表示），而用其他因素解释的那部分以资 
料点对回归线的离差来表示^我们把船员人数的变化或变异 
看作是一个围绕船员人数平均数的变异，正如我们以前用一 
+相对形式来表宗它们那样。实质上，我们是认为船员人数由 
于若干原因而变异（围绕着它的平均数），其中之一为吨位的 
变化》我们想知道在多大程度上这一变异是由吨位变化引起 
的，在多大程度上是由于其他因素。 

图7_2表明我们怎样做到这一点 & 对子毎一个资料点， 
如囝中的 A 点，离开平均数的距离被分为两个部分，第一部分 
是从平均数到回归线，而第二部分是从回归线到资料点。（现 
察这一过程的另一方法是考虑对回归线的了解能在多大程度_ 
上改进我们根据 一+ 特定吨位值对船员人数值的推测。如我 

^ * 354 ^ 




们对船员人数与吨位之间的关系一无所知，对任何吨位的船 
员 人员的 最佳推测将是船员人数的平均数。对回归线的了解 
可以使我们根据船员人数平均数与从回归线怙计的船员人数 
之间的距离 i 改进这一点。衡量我们的推関在多大程度上被 
改进了，是对实际资料点的回归估计接近到了什么程度。 

如果在这个基础上我们把平均数与回归线之间的变异视 
为船员人数由吨位影响所解释的那部分的变异，我们可以看 
出对回归线的拟合良好度（因而是我们估计吨位与船员人数 
之间关系的精 确性〉 的衡量是这一《得到解释的变异”占船炅 
人数有关平均数的全部变异的比例。 

在图7_2中，我们仅对一个资料点说明了船员人数有关 
平均数的全部 u 得到解释的变异”与全部“未得解释的变异”之 
间的关系。为了用有关平均数的 回归公 式对所有资料点计算 
得到解释的变异，我们将所有的变异平方 （以去 掉正负变异枏 
约的影响），并对所有资料点求和。于是其被称为测定系数的 
结果是 


zj - r-Ty (平均数与回归怙计值之间的距离） 
scr ~ F ) 2 (平均数与资料佾之间的距离） 

这一测定系数的计算稍微有点费事，尽管回归线算出后 

再从事这项工作从数学角度上讲并不复杂。在这个例子里， 

测定系数为0.8 268 ，因此我们认为回归线对资料点拟合得 

很好，它可以解释 F 变动的0,犯68或82.68%。换句话说， 

8 2 . 63 %的船员人员变异可由吨位变动来解释。 


在实践中我们并不需要直接计算测定系数，因为可以显 1 
示它等于相关系数 B 的平方 & 由于这个原而，测定系数逋常 
被写作因此,衡暈回妇公式的拟合有效度的最好方法为 r 
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相关系数的平方，因为它精确地告诉我们用根据 z 对 r 的回 
归公式解释的 f 的变异在多大比例上归因于工的影响。这一 
事实还可帮助我们判断上一节所讨论的两个区间尺度变量之 
间关系的强度。如果我们计算出两个变量之间的相关系数为 
0.9,那么应变量中81%的变异应由自变量的影响来解释；如 
果相关系数仅为 o . e ， 则只有36%的变异得到解释。由于这 
个原因，当小于 0.7 时，不应对两个变量之间的关系过分肯 
定，因为只有不到一半的变异可归因千这一关系的影响，而大 
部分是山其它因素所造成的 0 

©后，关于相关和回归分析需要强调四点。第一，我们在 
整个这一章里仅考虑了线性相关和线性回归一即资料点可 
以用一条直线来表汞的情况。完全有可能两个变量之间存在 
着一种很强的非线性 关系； 如果是这样，线性相关系数 is 的计 
算将给出一个很低的相关值，而线性回归线对资料将给出一 
个很差的拟合。由于这个原因，在计算五和回归线之前，通常 
像图 7.1 那样将资料标绘在一个散点图上是明智的。只有当 
明显存在着直线关系时才能计算 它们； 如果一条曲线看来似 
乎能给出一个更好的拟合，髙级统计教材将讨论适当的方法， 
第二，我们只考虑了一神例子，在其中只有一个自变量被 
认为是影响了因变量。这里讲过的方法也可以扩展到具有两 
个或两个以上的自变量的例子中去。倘若如此，这些方法就: 
是多元回归分析的方法,而不是这里所讨论的简单回归分析 t 
同样，如需获得洋细的指导，应参间高级统计教材。 

第三，相关与回归方法在历史研究中逋常被用于根据有 
限的证据对两个变量之间的关系作一般性陈述。例如，裉据 
我们的证据，即限于1907年25艘商船的资料，我们可能想对 
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船员人数与吨位的关 系作出 一般性陈述。由这样一种尝试所 
引起的问题将在下一章里进行时论；这一章只关心我们手头 
所有的资料中的关系，而不是从这些资料中作出概括。 

第四，我们必须再一次强调，只有当历史学家用一种清楚 
的理论把他试图描述其关系的变量联系起来时，相关和回归 
分析的方法，以及对定名和定序资料的类似方法才是有意义 
的并才应被应用。由于纯属偶然的原因，可能会 m 现拟合良 
好度很髙的回归直线，因此较高的#值,但除非它们所要描述 
的关系能够以一种完全不同于统计方法的方式来理解和解 
释 ，不要 信任它们。 

7.4 含有时间数列资料的相关与回归 


_^个历史学家常会想去探索两个时间数列变量之间的关 
~ "系。 确实，它比起上一节所用的那类常被称为“横断而” 
的 研究， 其中没有任何时间成分的例子有大得多的可能性作 
为一个历史研究的项目。然而，应用那个例子的原因在于时 
间成分会使相关和回归分析复杂化，而这后两者只有当这些 
分析的基本原理被考虑了之后才能讨论。这里只能考虑这些 
复杂性中的一点，而任何真想对时间数列资料进行回归分析 
的历史学家应参考更高级的教材以获得更多的信息， 

将回归方法应用于时间数列资料的主要复杂之处，在于. 
两个线性趋势永远是绝对相关的——如果两趋势正向相同的 
方向移动是绝对正相关，杏则是绝对负相关。这一点可以从 
图 7 . 3 中潸楚地看出，两个线性趋势分别按时间标绘，以及在 
—个散点图中，那里跅有的点都落在一条直线上 ，指示 一个绝 
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对相关。因此，如果我们计算两个各自具有一线性趋势的变 
量之间的相关系数，丑值将受到趋势存在的影响。假如我们对 
19世纪初期的英国的进出口之间的关系感兴趣，那么双方分 
别具有一个上升的时间趋势的事实将会使得相关系数相当 
髙，而且是正数。如果我们感兴趣的是显示进出口双方都在 
上升，那么这不成问題。然而，更可能我们感兴趣的是进出口 
波动之间的关系；我们想知道进口中的一个上升是否导致出 
口的一个上升——如果是的，上升多少。如果我们的兴趣在 
于波动之间的关系，那么很清楚我们不希望相关和回归的估 
计受到线性趋势时影响。 

所以对历史学家来说，了解时间趋势是否影响着他的结 
果是重要的。有时观察一个图表或散点图，以这样方式起作 
用的时间影响是很明显的，但有时这种证据可以是很模糊的。 
因此，利用某些测度珂能扰动时间影响的方法是有意义的， 
为此许多历史学家采用一种被称为德宾一沃森检验的检验 
法，它导致计算一个叫作#的值。为了解这一也被称为自相 
关的检验 方法， 我们必须回到上一节所描述并在图 7.2 中画 
出的方法，根据这种方法应变量中的变异被认为由两部分组 
成：一部分由自变量的变异“解释 w ，而另一部分为“未得解释 
的变异。对于每一个资料点，应变董的值与所有值平均数之 
差被类似地分割成回归线与平均数之差(图7,2中的 BC ) 以及 
余项(图 7.2 中的 AB ); 这个余项通常被 称为“ 残差”，而这些资 
料点的剩余集被称为“回归公式残差”。回妇分析时一个重要 
假定是各连续残差之间彼此“不相干％统计学上的不相干性 
的概念将在第八章第 （2) 节里详细进行解释，但大致讲，它意 
昧着一个残差值不会影响次一个残差值。否则就违反了回赶 
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啟这一基本假定，自相关被说成存在，并且在回归方程 

1T « 4- 6JE" 

中的回归系数 a 和 6 以及测定系数 M 可能受到影响，致使它 
们不能真正表汞尸与尤之间的关系。 

两个时间数列中的时间影响很可能使当一个时向数列对 
另一个时间数列求回归时连续的时期(例如连接年份）的资料 
点很可能接近在一起，其回归线残差因而很可能是相关的。 
由时间影响产生的自相关，对历史学家来说是一个普遍的问 
题 ，因此每当对两个时间数列求回归时应进行德宾一沃森检 
验。#的计算十分筒单，若取々（这里 f 为时期）为残差， 
则 

妒=上- 

对&値的解释通常要求参照一个图表集。作为一种粗 
略的指导，近似于2的#值表明不存在自相关，而接近于零 
或4的#值表明存在着正自相关或负自相关。使用这一检 
验方法的历史学家应报吿#值及对它的解释。例如， W ■冯 
腾泽尔曼博士对19世纪初期英国进口与出口之间关系的研 
究，以对非欧洲国家 C 其他出口”一2。）的出口作为因变 
量①6在一项回归分析中包括谷物的进口为自变量或解释变 
量，而在另一项回归分析中不包括谷物的进口则为自变量或 


① N * 冯捧泽尔受：： * 论马修 斯命通 p (H * Von TumelTimiii , a tYn?si si 

to : Mathews 7 ), 载 《 经济 史评论 * 第 2 D 卷，19抑 年，第 548— 554 页 。感 
逝冯睛择尔曼博土和<经济史评论，的编辑允许我从这篇文章中拥印图表 7 A — 



y 10 


A , 根据时间标绘的趋势 



S 7.3 两个线性趋势的相关 



解释变量；在这两项分析中，由于兴趣都在于两个数列增长之 
间的关系，都用了自变董和因变量的对数^两个数列被画在 
图 7*4 中。在第一项分析中，两个数列之间存在着一个非常 
强的关系，如图所示并由 A 2 等于 0.991 所证实。然而，德宾 
一沃森 统计量 f 为 3.55; 这接近于4,指出存在负自相关， 
这一点由“锯齿”型图解所证实。如图 7. 5所示，当工■的实 
际值与估计值相比较时就会看到这种“锯齿”型图表。在第二 
项分析中，及等于0.965，#为0.35。这指出正自相关，而残 
差值的型式如图 7.6 所示 | 大多数初期值位于回归线的上方， 
后期值则位于回扫线的下方，显示出时间对估计关系的影响。 
这一点也可以通过图解回归公式对时间的剩余值来加以证 
实。 

然而，由于存在着使资料转换以消除一个扰动时间趋势 
的种种方法，时间影响并没有使分析变得不可行^第六章里 
描述的可以慠到这点的一种方法，是从每一变量中算出趋势 
值，再从每一资料值中减去趋 势值; 这样就建立起一个于是可 



资料 来原： 冯腾泽尔受 a 
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Xo 的估计值 
(百万英镑） 



20 22 24 26 2& 30 32 

Xo 的实际埴 （百万 英镑 ） 


图 7. 5其他出口的实际值和从其他出 口依包 括谷物 
进口的回归得到的估计值 

资料 来源： 冯腾泽尔旻 

Xo 的估计值 
(百万英镑） 



Xo 的实际值（百万英孩） 


图 7 .e 其 他出口的实际值和从依不包括谷物的进口的其他 
出口回归得到的估计值 
资料 来源： 冯腾 泽尔资 





用于回归分析 的“去 除了趋势的”数列。类似地，通过从资料 h 
中消除一个强烈的周期性影响也可以产生一个新的数列。当 
我们的兴趣在于两个时间数列中逐年变化之间的关系（如图 
7. 4中的逐年 变化〉 时，另一种方法尤为适用，即从前一年值中 
减去每个每年值而为每一数列建立一新的数列。这种数列被 
称为一个阶差分数列。冯腾泽尔曼博士应用了一种稍微复杂 
的方法，并根据包括谷物的进口数列得到一个出口的回归及 
ii 2 = 0,993,^ = 2.04, 对于不包括谷物的进口，'记= 0.882, 

心二1.80。因此在这两个事例中，资料数列的转换排除了任 
何真正的自相关，但并没有严重地影响&度量的数列之间 
关系的强度，因此，自相关的存在并非时间数列的回归分析 
的一个难以逾越的障碍，但历史学家应意识到它可能带来的 
影响以及德宾一沃森统计的用法和意义^ 
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资料缺失的问题 


W 个历史学家，当他研究一个历史问题时，都会在心中栂 
#成一幅他所要得到的，使他能解决其问题的证据的图景。 
我们可以认为这一理想是一个资料集，有了它就能为历史学 
家昕面临的不论什么 何题提 供一个完整的答案。根据这一思 
路，每一历史问题会有 fl 己的埋想资料集，虽则很明显一个资 
料集会与另一个资料集相重叠，正如一个历史问题会与另一 
个历史问题相重叠一祥。我们可以将每一个理想的资料集赛 
作是由一组 个案所 组成；每一个案则由可以区别各个案的一 
组变量特征所组成，所有这些构成了一个资料矩阵。 

在某些历史学问题中，要明确这类理想的资料矩阵将包 
括哪些内容是很容易的，假定我们对18世纪某一教区的人 
口史感兴趣 f 作为建立一个人口变化年表的最低需要，我们的 
理想资料矩阵应包括有关这一世纪本教区每一居民的出生、 
婚姻、死亡的资料。如果我们对探讨人口变化的原因感兴趣， 
可能还想要将诸如职业、收入等变量孙充进资料集^对于其他 
—些历史学间题，对理想资料集的界定或许不那么容易，但毫、 
无躱问可以舞象这样的资料集是存在的。 
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在理想资料矩阵中，应能得到所有个案和每一个案所有 
变量的信息。我们应有足够的而且刚好足够的，使我们能回 
答所面临的问题的信息。早先在第二章中讨论过，我们将在 
收集证据的过程中，试图填充资料矩阵的内容，为每一个案及 
每一个案中的每一变董提供证据；这样在收集资料终结时我 
们将得到一个与我们的理想矩阵规模相同的真实资料矩阵； 
在此基础上我们开始对资輯的分析。 

不幸的是，以太多数历史学问题来说，我们能够收集到的 
真实资料不会确切地或完全与理想矩阵相符合。历史学家最 
通常的抱怨是 " 要是我们能更多地了解这个或那个该多好 
面紧接着这个抱怨的是。 “ 我得到的资料太多了，真不知道该 
怎么处理它们 I "换句话说，真实资料矩阵几乎肯定会在某神 
程度上与历史学家开始考虑他的何题时有意无意建立起来的 
理想资料矩阵不同 & 

真实资料矩阵可能在很多方面与理想矩阵不同，我们可 
以将真实矩阵对理想矩阵的歧异归纳为4种类型，认识到任 
何真实资料矩阵都可能表现出一种，几种或所有对理想矩阵 
的歧异。这4神是： 

U > 信息太多。 

(2) 缺失有关一个或更多的完整个案的信息 a 

(3) 有关一个或更多变量的信息完全缺失。 

(4) 缺先有关某些个案中某些变量特征的信息，但没 
有一个个案或变量的信息完全缺失。 

奇怪的是，第一种可能与理想矩阵相歧异的是资料并不 
缺央；毋宁说问题在于历史学家的资料太多了，以致他不能有 
效地应用它们。我们在此考虑它是因为这种情况表示真实资 
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料集与理想资料集的一种歧异，弁因为可能克服这一缺陷的 
方法与讨论缺失材料的情况有关。 


8.1 信息太多 ：变最 的选择 

S 然应用计算机和电子计算器可使历史学家分析大量和复 
杂的材料，历史学家仍面临某些材料太多的情况。缺少电 
子设备帮助的情况仍然普遍，而且有些历史资料集大得甚至 
使 m 计算机其有效地处理资料的任务仍然十分巨大。在这神 
情况下，如果历史学家想要继续他的研究，就必须在现有的证 
据中作出选择，并在此选择的基础上作出自己的结论。换言之， 
他从自己的真实资料集中挑选个案和变量直至填充了他的理 
想资料集。他所面临的问题是确立作出选择所依据的原 JSL 
我们将首先考虑对变量的选择问题，弁以一种愈益被应 
用于历史探究的方法，即“集体传记”为例子；这个名词意为 
尽可能多地积累有笑参与某些政治或经济活动的男女们的传 
记性信息6这种方法可与只考虑少数起主导作用的人物的较 
为传统的方法相对比 a 例如，艾德洛特教授收集了有关 1 S 41 
年议会所有议员的资料，弁通过这些资料来研究议会的活动， 
而不是按照传统方法仅研究政党领袖皮尔*格雷厄姆、罗素 
* 本廷克、迪斯累里及其他人的活动①。拉布教授弁没有仅研 
.究17世纪巨大的英国海外贸易公司的主荽人物，而是收集了 


⑦ 界 - O .艾德洛特，19世纪40年代英国下议麂中的投票型式’ ( W , O . 
Aydelotte, 1 Voting paU&rna in the Brltisli House of Commons in the 

1 S 40 S ' ’） ，栽*社会与历史的比较研究>，第 6 卷 (1963) ，第 1*4—3.84 页* 
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有关向这些公荀投资的所有人的资料。①其他的研究还包括 


1789年大革命时期的法国人, © 20世纪30年代德国纳粹的 


支持者，©英国的实业 家，® 而“集体传记”这个名词还应用于 


有关若千教区、城镇乃至国家的资料的收集工作中。 


在这些研究中，有关的历史学家必须决定对所研究的主 
题应当收集什么资料，因而不应当收集什么资料这类决定 
往往由于现有证据的性质而强加于历史学家；例如，拉布教授 
将自己的研究限于每一投资者的3个变量 t 他的社会地位，他 
在国会中的议员资格及他所投资的公诸如出生与死亡日 


期、所任职务等其他方而的资料则被作为识别特定的投资者 
的辅助工具加以收集和应用，但它们不用于对资料的分析，因 
为只能收集到拉布所认定的86 S 3 名投资者中一邡分人在这 
方而的资料。由于同样的原因，艾德洛特教授不得不略去有 


关下议员财产和宗教方而的资料。⑤ 

次一步要做出的决定是不收集某一特定变量的资料，因 
为这一变量被认为与对资料所要提出的问题无关。例如，拉 
布教授并没有收集有关“这一时期3个非常重要的新兴事业， 
. 沼泽地排水、造船和渔业”方而的资料，因为它们将会锋 


① T, K. 拉布：*企业与帝国， (T. K. Rabb, Enterprise and JEmpire) , 
马萨诸塞州，剑桥:哈佛大学出皈社， 1907 年。 

② C . 蒂利 — 买主 < C . Tilly , The 马萨诸塞州， 剑桥： 哈佛大 

学出版社， 1964 年。 

③ W. S, 艾伦： * 纳粹夺取政权 * (W. S. AJ1en ; The isfazi ol 

Power), 芝加荀] 1965 年。 一 

@ G ■境里克森： * 英国的工业家：钢铁业和计织、〗 RrJckaon , 

Indus! rialists, Steel and HcwsiVry) ，剑桥：剑桥太学出版社，年。 

® w . 0 + 艾德洛特： * 历史中的计 爱化 ， CX Aydeiotte , Quantifica ^ 
tJon in Hi 劝 ory ), 马萨诸塞，雷丁：爱迪生-韦斯利出版公司 “971 年，第: US 页。 
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我离题太远％①拉布教授这样说一方面承认对有关上述3项 
事业投资的资料极有兴趣，但另一方面又表明它们与他想要 
回答的有关英国海外投资的有限的几个问题 无关。 一个特定 
资料集是否与所考查的主题有关，必须根据对这一主题的历 
史知识来决定。在其历史知识的基础上，历史学家所必须做 
的是构筑一种将他想要提出的问题与他试图收集的证据联系 
起来的理论。例如，拉布教授在心里己形成了一种英国海外 
投资的决定因子的理论，这种理论将社会地位,作为议会议员 
的资挤和在其他冒险事业中的投资看怍是重要的，而将对其 
他新兴项目的投资 （如他 提到的3项>则看作比较不重要。既 
然这些其他投资比较不重要，有关它们的资料就不需要收 
集， 


这种将问题弓证据联系起来的理论，通常被 冠以“ 模型” 
之名。在构筑一个模型时，历史学家取资于自己的历史知识， 
以及13己对例如经济理论的知识来绘出一幅布关一个历史事 
件或过程中的决定因子的图画。在此基础上他就可以收集有 
关的怔据并试閔回答使他感兴趣的那些问题，这种模型可能 
十分简单，仅联系少数几个变量。如拉布教授有3个变量。 
模型也可以非常复杂，特别是在经济史中；如福格尔和恩格尔 
曼教授枸筑的一个模型.使用了 12个变量来描述19世纪美 
围铁工业妁增长。 © 但无论模型多么复杂，其价值在子它能精 


① G 布：前引书，第164页。 

② 1UW 桐晓尔和& L. 恩格尔旻，对19 世纪工 业扩弘的一个解释 杈型： 
在芙 W 生 K 业中的說用 * (R，W. Fogel and L.. K ngerir.an, model for 

pxp-fn^aiion inclaatiial expansion during tho niitetecnth century : 
sin appju^i.fon tci the if-an lion iaduatiy 载政 政洽经济学系 

50(3 — SSS JA , 


* 169 * 



确地说明历史学家提出的有关证据的理论及不同变置之间逻 
辑关系的理论。在研究的过程中，模型当然可以被修改；研究 
的目的确实常是提出一个更好的理论以解释某些历史过程6 
但是，只有当我们对自己的模型或理论有了一个清晰的概念 
时，我们才能有一个坚实的基础来决定在研究中一个特定変 
量应被包括，还是排除。 

迄今为止我们已经讨论了由证据的可得性和历史学家建 
立起来的模型或理论所决定 的变量 的选择问题第三种类型 
的选择可以基于排除那些不能对从其他变量中得到的信息増 
加任何有价值的额外信息的变量。在最简单的事例中，信息 
可能以2种不问的形式出现 & 例如，我们可以从一个资科来 
源得知一个男人已婚，而从另一个来源得知他结婚时26岁。 
因为后者包含了前者，所以问时使用这两个信息毫无怠义。在 
较复杂的事例中，历史学家可能会发现一个变量完全可以用 
另一个变量来代表。例如，在对英国铁路的影响的研究中，霍 
克博士仅考虑了铁路对小麦运输的重要性，但没有研究对其 
他谷物运输的重要性。由于小麦是运输中最重要的粮食，从 
这项研究中得出的各个结论就不会0为包括了其他谷物而改 
变，所以其他谷物被排除了。①当然，这种省略一个变量的选 
择与其他根据模型所进行的选择一样，必须由历史学家来旺 
明其正确性 I 但根据重复信息毫无意义这个总的原则来说，这 
样做常是可以接受的。 

一般说来，只有作为历史学家有意识决定的结果，变景才 


① G . : R ■霍克: *1840—1870 年浃路与英格兰和威 尔士的 组济增长 R . 
Hawke, Economic Cro^tK in England and Wales, 1340_ 

1 S 70> ，剑挢：克拉瑞敦出販社，1970年，第1^2页^ 
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能被省略。甚至由于证据缺乏而不得不省略一个变量时，历 
史学家也常应意识到因此在他的分析中缺失了某些东西。正 
如文德洛特教授所写，“学者必须以他对所省略的东西……以 
及所包活的东西的了解为指导，……弁且必须小心行事，避免 
作出虽则与他所引用的数字相一致，却歪曲了他不得不省略 
的证据的任何推论/① 

8.2 信息太多，个案的选择 

S 然除了谨慎和诚实之外，我们不能为变置的省略规定出 
什么总 的原则 ，但个案选择的理论发展得很好。像“抽样 
理论”那样*它构成了大多数统计教科书的基础。因此我们不 
打算很详细地讨论神种抽样方法，而仅仅简要指出它们的主 
要原理。这样倣既可使历史学家较容易理解论述抽样的教 
材，他们想要作抽样时，又可为本章后面要谀到的有关缺失资 
料的问题提供一个背景。® 

在抽样中，我们从资料中作个案的选择。我们要减少必须 
处理的资料的数量，面又不大大降低从资料中得出的结果的 
准确性。因此，我们的目标是，根据我们对所选出个案的研究 
而得出的结论应与假若我们能研究所有个案而得出的结论枏 
一致。换句话说，我们要样本为我们对真实结果提供一个准 


① Vi O . 艾徳洛特，前引书 1 第147贯。 

© 对柚样问题的极好的 讨论， 参见 R . S . 舍菲 尔德： #历史研 究中的抽样" 
( K r S . SolioiiaJd , in hisLoriea ] researrfi t ) 1 ^ K , A , 里格利编： 

*十九世纪的吐会 A. Wlgley, nineteenbt-CaEtary Society), $ij 
桥 ：剑侨 太学出版社， 1072 年。 
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确的估计数 & 例如 3 如果我们对发现1907年商璐的平均吨位 
数感兴趣，我们将试图选择一个其平均吨位数与所有商船的 
平均吨位数相同的商船样本^与此类似，我们可能对商船的较 
复杂的特征感兴趣，成许是以蒸汽为动力的比例，或是船员人 
数的平均数和标准差 n 我们的目标总是 一样： 找到一个使我 
们可以対我们感兴趣的特征作出一个准确佔计的样本。 

从总的资料集中选择或抽取个案的任何方法，都将提供 
一个具有某些样本资料的据以作出估计的资料集。例如，我 
们可以只选取前10个个案，或者用一枚大头针随意挑选，或 
者选取我们所听说过的每一艘商船或那些具有冇趣名称的商 
船。作出选择之后，我们就可以计算，例如，我们样本中的商 
船平均吨位数，然后我们会得到所有商船的平均吨位数的估 
计。不幸的是，我们没有办法证明这一估计准确到什么程度； 
它可能很准确.也可能谬误百出，而我们无法知道它厲于哪一 
神。因此，抽样理论的意义首先是为我们提供一种能使我们得 
出准确估计的个案选择方法，其次耍使我们能估计出这种估 
计可能准确到什么程度。 

抽样理论和方法是根据两个概念 ■ ■一 其一为正态分布， 
其二为独立随机抽样一一以及由这两个概念推导出的一些定 
理。我们将分别考虑正态分布和独立随机抽样这两个概念， 
然后例示它们怎样协助我们决定抽样方法。 

正态分布是频数分布的一种特定形式。它们具有这样的 
特定性质，即在分布中一个固定比例的个案处于分布的平均 
数与任何给定的商平均数的距离之间，而离平均数的距离则 
闬分 布的标准荖的倍数来表示。例如，在分布中68,26%的 
个案落在高于平均数的一个标准差与低于平均数的一个标准 



碧之间 f 95. 46%的个案落在髙于平均数的两个标准差与低 
于乎均数的两个标准差之间。如果我们有一个平均数为175, 
标准差为25的正态分布的资料集 〈即其 形状接近于一个正态 
分布的形式），我们就知道在这个分布中68*26%的个案的值 
介于150与200之间，95.46%的个案的值介于125与225之 
间。存在着无穷多的正态分布，每一分布对应一组平均数和 
标准差，但它们都具有这种性质。而且，每一种正态分布都可 
以祓转换成称为正态分布的标准 形式; 这是一个平均数为零， 
标准差为1的正态分布。任何其他正态分葙的值都可以通过 
下面的公式转换成这一标准形式的值 

= ■ - ■- - - 

S 

这为原始正态分布的每一个值，$ 和沒 为它的平均数和 
标准差，2为正态分布标准形式的毎一个值。 

图 8.1 为正态分布的标淮形式，以及落在离分布的平均 
数的特定距离之间的个案数曰。 

抽样理论的第二个基础是独立随机袖样。随机样本意味 
着选取一个个案样本使每一个个案都有同等的被选为样本的 



图 n 芷态分布的标准形式 
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一部分的机会，而每一个个案组合都有同等的被选中机会6 
“独立 M 意味着将一个个案选为样本不应影垧任何其它个.案出 
现在样本中的机会。应该强调指出，只有当这些条件都得到 
满足时才能说样本是随机的 I —个随机样本并不是从历史的 
意外事故中侥幸残留下来的东西，也不是由偶然投合我们兴 
味的个案所组成。在实践中，我们选取一个随机样本时通过利 
用随机数宇表来保证上述条件得到满足。这些随机数宇表构 
筑得使任何一个数字出现在表中任何一点或数字的任何组合 
出现在表中的机会都相等。因而随机数宇表中排列的数宇满 
足随机抽样的条件。表 S .1 所眾为这种随机数字表的一小部 
分 S 完整的随机数宇表以书的形式出版，也收编在统计学图表 
的书中。此外，许多电子计算器也可以产生随机数宇。 


表 3.1 摘自一张随机数宇表 
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设想我 a 想要运用随机数宇表从《末日裁判书》列举的埃 
塞克斯郡采邑中（见表 3,1) 选取一个随机样本 a 表 3.1 列举 
T 50个采邑，我们打算从中选取10个随机样本 c 

我们首先为50个采邑编号，第一个采邑里特尔为1,未特 
别指明的采 R 为这50个数宇被称为我们进行抽样的“总 
体' 然后我们可以从随机数字表中任何一点开始；比如让我 
们从第 3 列最上面的数宇 S 7 开始。它大于50,因此我们不能 
闱它。所以我们逸取紧靠下面的数宇 34( 同样我们也可水平 




移动取 88), 34小于50,因此我们选取第三十四个采邑埃尔森 
哈姆为样本中的第一个采邑。沿此列继续往下得到81和82, 
我们放弃不用，然后得到27;表中第二十七个釆邑韦瑟斯菲尔 
特于是成为样本中第二个采邑。现在我们就可以移到表的其 
他列或其他行。假定我们只移到第4列的顶端，继续选取会 
发现22,因此取第二十二个采邑。再移到第5列继续选取会 
发现27。现在我们已经为样本选取了第二十七个采邑> 如果 
再选取它，那么在样本中一个采邑将出现两次，这将是一种浪 
费，因为在样本中会重复信息。所以我们可以略去这个数字 
(虽然并不是必须要这样做）并继续移动，选取37, 47, 7, 1&， 
29 (略去 22), 44, 40< 再略去 22) ,和41作为我们的10个样 
本。如果对一较大总体 〈比 如说 3< KK ) 个采邑）进行抽样，我们 
则将只取四位数的数宇，并如前进行。 

我们已经叙述了正态分布和随机抽样，现在我们就可以 
继续说明它们怎样与抽样理论相关《假如我们从一总体中反 
复地抽取況个个案的随机样本> 这一总体有一平均数，甩符号 
和（读作 mu ) 表示，其标准差用符号 <7 〈读作 sigma ) 表汞。我 
们每取一组随机样本即计算该样本的平均数；随着我们所取 
的样本越来越多，这些平均数本身即构成一个有自己的平均 
数和标准差的频数分布。可以看出，当所提供的样本容量） 
足够大时（在实践中大于 100)* 这一样本平均数的频数分布 
(抽样 分布） 将是一个正态分布。而且，抽样分布的平均数将等 
于总体平均数而抽样分布的标准差（称为“标准误差”）将 
等于^/%/况，即总体的标准差除以況的平方裉。只要所提供 
的样本容量足眵大，不管总体本身是否为正态分布上述这点 
都是正确的。 
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这些特征适用于抽样分布，而并不适用于单个的随机样 
本上 6 然而，由于样本分布是正态的，我们便知道分布中 
68. 26%的个案将落在该分布的乎均数和正负标准差的区间 
里。构成样本分布的个案是单个随机样本的平均数，因此我 
们可以说 68. 26拜的随机样本将在这个范围里求乎均数。我 
们可以把这句话换个方式说，在100个样本中的 68.26 个样 
本将在这一范围内求平均数，或者相当于说任何随机样本将 
有 68. 26%的机遇在这一范围内求平均数。类似地，我们可 
以说，任何隨机样本有95_46%的机强在总体平均数的两个 
标准差之间求平均数。 

正是这些事实为应用抽样方法提供了正当的理由 c 我 fn 
知道，假如取一个相当大的随机样本（在实践中超过100个个 
案）， 随机样本的平均数将有很好和精确确定的机遇接近样本 
所从抽取的总体的平均数。即使样本较少，也订以精确地确 
定机遇。因此样本平均数是对总体乎均数的一个良好估计。 
此外，如果我0知道了总体的平均数 P 和娇 准差〜 我们即知 
道有 68. 26% 的机遇 确保来自总体、规模为 I 的一组随机样本 
的平均数将在篾的范围里取值。这种了解在历史学 
问题中极为重要。历史学家愈来愈多地应用由19世纪人口 
普查中普査员所收集的资料，并从普査员的登记簿屮抽取样 
本。这些登记簿中的许多材料被用于已发表的人口普査拫告 
之中，诸如某一特定地区人们年龄的平均数和标准差这类资 
料都可以从中得到。因此，历史学家可以从普查员登记簿中抽 
取一个随机样本，了解100个样本中有 95.46 个样本的平均 
数应介于总体乎均数加2个标准差及总体平均数减2个标准 
差的范围之间。若结果不如此，那他马上就会意识到要么他 


• 176 * 



在抽样时犯了一些错误，要么他的样本不幸正是100个样本 
中那 4.54 个样本之一，其样本平均数处于这一范围之外 & 若 
他的样本处于这一范围之中，那他可以相当肯定一切无误，并 
运用他的样本推知更多有关他所抽样的总体的信息（当然，也 
有可能他在抽样时犯了错误，但是样本平均数仍然落在正常 
的范围之内 I 因此，一个样本平均数，落在这一范围内，未必能 
保证不是一神坏的抽样方法)。 

然而，在大多数历史研究中，总体的平均数和标准差是未 
知的。确实，提供对它们的估计常是样本的目的6在这种情 
况下，我们知道样本平均数 （1 ⑽个样本中有 95.46 个样本>应 
处于的范围之内，但是由于我们不知道总体的 
标准差 S 所以也就无法知道这一范围是多少。我们所得到 
的唯一信息来自随机样本，因此我们必须利用这一信息帮助 
我们估计汉。可以看出，对 or / v / y 的最好估计为 S 7 
V 7 <^-1)，这里 S 为样本的标准差，汉是样本的个案数，而 
且抽样是随机的。因此，当总体平均数和标准差为未知时，我 
们首先从总体中抽取规模为 I 的随机样本，并计算样本平均 
数和样本标准差。运用方才表述过的定理，我们可以说在所有 
样本中有 95. 46%的样本的平均数将落在± 

的范围内一即取自于总体平均数的样本分布的2个标准差 
(或标准误） & 通过这种方法，我们利用样本対我们感兴趣的总 
体特征作 ® 估计，它将是最可能好的估计。 

我们可以通过一个简单的假设例子来说明应用抽样方法 
来提供对总体特征的估计。假定我们想要通过样本平均数对 
—个特定城镇妇女初婚年聆的平均数作出 估计。 我们从教区 
登记薄中收集有关结婚年聆的资料，然后取一个有100个妇女 
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、的随机样本。初婚年龄平均数 Z 等于27,标准差 s 等于22年 & 
根据上面讲过的定理我们知道，样本平均数是对总体平均数 
的最佳估计，并且在100个样本中有 95.46 个样本的乎均数将 
落在只± 2 ^/\/汉范围内。这等于说100个样本中 95*46 个 
样本的总体平均数将大致在 f ±2勺公及的范围内。由于我 
们不知道总体标准差 A 我们运用 Sjs / 、伤糾 s/N 
的估计值 & 这样，对这个例子，我们知道，100个样本中有 
95.46 个样本的总体平均数将在以下的范围内 


X±2 


s 

sJ ( H ) 


口 27 ±2 


< 2 . 2 ) 

sj ( 100 - 1 )」 


= 27 ±0.4422 


因此，总体平均数将介于26,5578和27,4422之间围绕平均 
数的值域 ± 0.4422, 被称为爽 的置信 K 间”，因为我们苺以 
说有95艿的把握总体平均数将落在这一区域内。 

迄今我们己讨论了在对样本所从抽取的总体的特征作出 
估计时，抽样理论的应用。此外，我们可以应用样本理论帮助 
检验有关样本结果的假设。一个历史学家常有兴趣去了解他 
所研究的主题中的某一特征在两个时期之间是否发生了变 
化。应用我们的假设例子，我们可能对发现在一个世纪过程 
中妇女的平均结婚年龄是否变化这一问题感兴趣。由于一项 
婚姻可能生育的儿童人数与妻子的结婚年龄有关，在了解人 
口活动时知道大多数妇女的结婚年龄是重要的。西为我们所 
研究的婚姻数目十分多，我们需要应用样本。有关某世纪初 
100个婚姻的第一个样本表明，结婚年龄的平均数是27,其榇准 
差为 2.2 岁，而有关100年后100个婚姻的第2个样本则表明，结 
婚年龄平均数为26.5岁，其标准差为1.6岁。初看起来，似乎 
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一个世纪以后结婚年龄平均数下降了 0_5 岁。但是我们必须记 
住这些只是样本结果，给我们的仅是对总体结果的估计；再 
则，由于我们是在抽样，必须时时记住存在着样本可能不会给 
我们一个对总体结果非常准确的估计的风险。例如，我们可 
以设想第一个样本过髙估计了结婚年龄平均数，而第二个样 
本过低估计了结婚年龄平均数*在每个样本在估计中只 m 有 
0.25 岁的误差，就可以使 0.5 岁的结婚年龄平均数的表面变化 
丧失。因此我们 m 要我到某种方法去区分作为抽样过程的结 
果面出现的差异，以及存在于总体的结婚年龄平均数中的真 
实差异。这两种可能性可对比 如下： 

1. 总体平均数之间没有相差，但作为抽样结果的样本平均 
数之间存在着相差。 

2. 总体平均数之间存在着相差，它反映在样本平均数之间 
的相差中。 

力在这两种可能性之间作出判断，我们利用一种称为平 
均数相差检验的检验方法，它建立在抽样的另一项定理和正 
态分布的基础上。这顼定理说明，如果我们从2个总体中取具 
有较大规模的大量的独立样本，并计算每一对样本平均数之 
间的相差，那么这些相差的抽样分布本身就是一个正态分布。 
它的平均数将等于2个总体平均数之间的相差，而它的标准差 
(标准误）将是 


、 /(n) 

因此，我们可以利用正态分布的特征，而可以说，例如，两个样 
本平均数之间的相差将有95.46%的机会落在总体平均数之 
间的相差 
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的范围之内。 

运用平均数相差检验，我们要探讨的第一种可能性是在 
两个总体乎均数之间没有差异。即如果我们将叫 〈第 1个总 
体的平均数）从 A (第2个总体的平 均数〉 中减去，结果将为零 a 
倘若如此，样本乎均数之间的任何非零的相差都将是抽样的 
随机结果；再则，只有154涔（100-95.46)的样本可能具有 
大于2个非零的总体标准差的平均数之间的差异^因此，平 
均数相差检验的逻辑性 如下， 计算两个样本乎均数之间的相 
差，再除以标淮误 

\/(妥 + 著 ） 

假如结果大于+ 2或小于 - 2，那么如果总体平均数真相等，只 
有 4. 54%的机遇这一祥本平均数的相差将会是抽样随机的结 
果。因此，若结果大于+ 2或小于~ 2,要么是我们在抽样中非 
常不凑巧，要么是总体平均数不相等。若它们不相等，它们肯 
定有差别，而因此我们可以得出这样的结论：在样本所从抽 
取的总体中，结婚年龄存在着差异。 

在实践中，我们用一个公式来计算^——平均数的相差除 
以合并的标准误差。由于我们不知道总体的标准差，我们利用 
祥本的标准差作为估计值。在平均数相差检验中求!=的公式为 

对于我们用的假设例于，^ = 
1-6,兄= 4 = 100,这样 
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27-26-5 

= ^ ： ~~2.2 a 1.6 a " 

1 由于 2 为 1.829, 我们知道存在着一个大于 4.54% 的机遇—— 
样本平均数之间的相差为使用样本的结果，而总体平均数之 
间则没有差异。使用了 E 态分布表，我们可以更确切地说，尽 
管总体平均数相同，但存在着一个 6. 73凫的机遇一一所观察 
到的相差为抽样随机的结果。 

假设我们现在取另一个100年以后的100项婚姻为样本， 
并发现这第三个样本的结婚年龄平均数为24,其标准差为 2-1 
岁。将平均数相差检验应用于第二个和第三个样本，我们发 
现 



—1 * 829 


26 .5 — 24 

—JJY, s.i a \ 

V \ 99 _+ 99 } 


= 9*42 


检验的结果 z 远远大于+ 2，这表明样本平均数的差异 
是抽样随机的结果的可能性很小 ； 这一可能性大大少于1%, 
但我们仍可以得出这样的结论，即在样本从以抽取的2个总体 
结婚年龄平均数之间存在着真实的相差。 

对从同样的资料中的其他估计值可以作类似的检验方 
法，诸如比例或者回归系数。例如，若上一章所用的有关1907 
年商船的资料是通过一个抽样过程收集的，那么去检査这些 


结果是否由抽样过程所致而不是代表据以抽取资料的基本总 
体，将是非常明智的。在第七章里，我们推断出两个变量之间 
的关系为 


船员人数= 5.4481 + 0,00 S 2 吨位 
表明这一关系是正的，即商船规模每增加1吨，船员人员平均 
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增加 0_0082 人。但拫据样本®据，我们能否肯定也是如此， 
尤其是能否肯定我们的船员人数随吨位增加的结论；换句话 
说，就所有商船的总钵而言，我们能否肯定吨位的系数不为 
零？ 

如同在平均数和盖检验中那样，对一个特定的回归系数 
不为零的假设的检验是基于对回归系数的值与抽样分布的标 
准误差的比较，而抽样分布的标准误差得自于从一个其中真 
正的回归系数为零的总体中抽取大量样本。标准误差由以下 
公式估算 

fHiT^T^y/N-2 

这里: r 为从回归公式得到的 f 的蓣测值。在商船资料的例子 
中，标准误差为 0.00079 ;把 O . OOS 2 C 回归 系数〉 除以 0.00079 我 
们得到值 1 D . 3797,它提示 0.0082 的样本结果不见得是产生于 
回归系 数为零的总体。通过用计算出来的 1 C . 3797值与正态分 
布表相比较（或者，在这个例子中由于样本规模很小，可用另 
一种称为*分布的概率分布〉以确定在概率分布中离平均数 
的标准差髙于 10. 3797的值所占的比例，这是一种更为精确的 
裣验方法；上述值的比例大大低于0.5%，而且我们可以有把 
握地断定样本不是从一个回归系数为零的总体中抽取的。 

想要对从样本资料计算出来的回归系数（或者其他统计 
量）的可靠性进行估价的历史学家，需要知道标准误差的值， 
并通常用下面的形式来表示回归结果 

r -5.4481 + 0.0082 X 


(0,00079) 


括号中的项为标准误差。換一种方式，它可以表示匁 
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3^=5.4481 + O.OOS2J5T 
(10.3797) 

这里 括号中的项为#统计量，在前段中它是由回归系数除以 
标准误差算出的。 

正如本节所示，不同的检验必须用于不同的样本结果，我 
们所倣的不过是介绍了一些重要的抽样方法和概念。因此，任 
何想要从事抽样运算的历史学家，在开始他的研究之前必须 
更广泛地阅读有关抽样理论的书籍。 

8.3 抽样结果的“显著性” 

^讨论应用抽样方法估计总体特征及在讨论平均数相差检 
#验中，我们描述了怎样可能计算样本结果成为总体结果 
的良好估计的问题。我们已用 68. 26艿的机遇或 95. 46艿的 
机遇这类话来表迖这种可能性，或者如在最后一个例于中，我 
们说样本平均数的相差有 6. 73%的机遇是由于抽样随机引起 
一且我们计算了这些机遇，我们就需要用它们来作出历 
史判趼；例如，我们霜要决定我们是否将认为总体的结婚年龄 
平均数中存在或不存在变化。我们知道样本相差由抽样过程 
产生的机遇为6.73涔。但这一机遇是大还是小呢？ 

我们是否应接受一个机遇(一个 6. 73涔的机遇）并说在两 
个总体的结婚年龄平均数中存在着一个真实的差别，这个决 
定必须是一种历史判断。统计学方法能够告诉我们机遇是多 
少（或者概率是 多少） ，怛是我们必须决定愿承担多大凤险。我 
们的决定在某种程度上取决于特定结杲对我们的探究所具有 
的重要意义；如果我们不过是偶然对结婚年龄平均数发生兴， 
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趣，并且它究竟有没有变化对其他事物没有关系，那么我们或 
许愿意接受一个较大的风险。另一方面，如果我们的整个理 
论有赖于准确地知道结婚年龄中所发生的变化，那么我们大 
概只愿意接受一个很小的风险。通常在社会研究中所冒的风 
险水平为艿，常被称为10涔，的"显著性水 
平”。这一描述引起了给平均数相差检验这类检验以“显著性 
检验〃的名称，并出现了 a 结果显著于5%的水平上”之类的说 
法。这种说法只不过意味着为由抽样过程产生的结果的风险 
等于或小于5涔。意指同一事物所作的相等说法为"结果显著 
或“零位假设可在5%的水平上被抛弃、零位假设 
通常是假设结果是由抽样的机遇所产生，因而人们抛弃它就 
是接受结果为准确反映了总体特征的假设，例如，在平均数 
相差检验中，零位假设为在总体平均数中不存在差别。 

在上述或者类似的说法中，“显著的”这一名词只指在一 
特定的置信水平或显著性水平上，结果是肯定还是抛弃一个 
假设的问题。它与结果是否具有历史学意义这一点无关，虽 
然一个结果的统计学上的‘‘显著性 w 在历史学家据以作出的结 
论中可能会成为一个因素。 

显著性检验的使用不限于区间资料的样本，虽然我们讨 
论过的检验只适用于这类资料，如果只能得到定名或定序资 
料，可以使用其他一些检验，它们常被称为 " 非参数检验”，其 
中最常用的是以我们在推导列联系数时所用过的卡方统计量 
为基础的。这些检验方法的逻辑与我们已讲过的检验的逻辑 
非常相似，不过它们所利用的是其他形式的概率分布，而不是 
正态分布。 

当考虑样本问埋时，显著性检验很有价值，在对样本资释 



进行任何估计或推论时，它们的使用是必要 的^ 然而，它们容 
易被误用。首先，当，而且只有当资料按照诸如这一节前半 r 
分所叙述的简单的样本随机抽样这种概率抽样方法收集时， 
它们才是适用的。如果样本不是一个概率样本，那么对它进 
行显若性检验从理论上讲毫无意义，并可能导致错误的结果。 
其次，我们所讨论的许多检验只有当其他限制性假设得到满 
足时才能应用：例如，乎均数相差检验所假设的是区间资 
料，正态总体或者一个大的样本容量，以及独立的随机抽样。 
若没有满足这些条件，显著性检验同样毫无意义并会造成错 
误。 

毋庸置疑，这些检验不应该用于非概率样本，亦不能用于 
违反了由这些检验所作出的任何假设的资料。然而，对于这些 
检验可在多大程度上用于根本不是样本资料这一点，统计学 
家与社会科学家有着不同的看法 & 例如，假定一个历史学家 
对研究 180 G — 1900年牛津大学和剑桥大学的学生毕业以后10 
年所获得的乎均收入感兴趣，以期发现牛津大学的毕业生以 
金钱而论是否比剑桥大学的毕业生更为成功。想象他设法发 
现了所有毕业生的收入，因而毫无缺失资料，并且他发现事实 
上牛津大学毕业生具有较髙的收入 a 在这种情况下，许多社会 
科学家都很想进行乎均数相差检验，并在最终给出结果时，以 
诸如“收入乎均数之差在5%的水平上显著”的形式引述检验 
的结果。从算术角度上看这样做完全是可行的，但是难于了 
解这一检验以及它的结果的含义是什么。我们并没有一个毕 
业生的样本，而是全体毕业生。因此我们无法检验样本结果是 
否不同于总体 结果； 不言而喻，两者是相同的 。在这 种情况下， 
为了使显著性检 膦具有 一定的意义，我们事实上必须假设存 
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在着某一假设的、较大的牛津 _ 剑桥毕业生的总体，其中所苻 
实际的牛津一剑桥毕业生组成一个简单的随机桴本。然而， 
很难相信存在着假设的总体及随机抽样，因而显著性检险仍 
然没有意义。 在收入平均数之间存在着差别，只能说到此而 
已。 

当一个历史学家想要对一项特别研究进行概括时，如从 
一个工业城镇推论所有的类似城镇，从一个企业推论整个行 
业或从一个人椎论一群人，常常会商临这种困难。在这种情 
况下，可以从算术上对一个城镇的两个特征，如公共事业的 
规模与支出的相关系数进行显著性检验0当发现在一个城镇 
中这种联系十分显著时，历史学家或许还会以从这个城镔概 
括其他城镇为侠。但实际上，进行一项显著性检验并不能帮 
助他决定他是否能从一个城镇概栝所有城镇> 只有当一个城 
镇构成 k 有城镇中的一个简单随机样本时，它才会有所帮助。 
只有当历史学家能够证实的确如此，或他愿意作这样的假设 
时，显著性检验才有 S 义。 

虽然抽样理论以及在实际中抽取样本有各种困难，历史 
学家应无犹豫地运用抽样方法而不应由于存在着大量的记 
录而放弃一项分析计划。由于能节省时间和费用，运用样本 
的优点是非常大的。这一点尤其如此，因为一个样本的准确 
性取决于样本容量本身，而不是它在整个总体中所占的比例。 
这可以从这一事实中看出来，如果抽取大的随机样本，从这样 
本作出的估计的准确性甴 CT / W 这个量来决定，这里 C 7 是总体 
标准差，及为样本的绝对容量。总体的规模并没有在这个 a 
中出现，因此它与决定样本结果的准确性不相干^甴于这个 
原因，取10%的样本而不是取总体其它比例的样本并没有什 
• 1Q6 



7 


么优点，问题在于样本的绝对容量。从量中作出的一个 
更为重要的推论是，样本的准确性取决于样本容量的平方根 
而不是直接取决于样本容例如将样本容量加倍，它的精 
- 确度只増加\/2 倍。与沘类似，为了将样本估计的精 

确度加倍，我们需要将样本容量乘以 4,® 为 n /4 =2。样本结 
果的准确性由样本容量决定，以及増加样本容量并不相等地 
増加您的准确性这两个事实，意味着有时有可能从一个较小 
的样本中导出完全坷以接受的结果，而所需的努力与研究整 
个总体相比非常小。 

S .4 资料太 少：缺 失资料的问题 

失资料何题 W 指在资料收集的过程中可积累的资料矩阵 
^不能填潇历史学家所想要填的理想资料矩阵的一切情 
况。 我们在本章开始所区别分类的 U ) 类型都属缺 
臾资料类型的例子。这类问题在历史研究中既比资料太多所 
引起的问题要常见得多，而且解决起来也困难得多。一般它 
们是由于记录受到破坏或者由于昔日官僚们未能保持我们想 
要得到的那类记录 & 第一类例子是，在英国史中有关洗礼、婚 
姻和丧葬的教区记录在有些教区被保存下来了，而在其他教 
区则没有。第二类例子是缺乏足够的19世纪以前的大多数国 
家人口普查资料。应该强调的是，有助于解决缺失资料问题 
的统计学理论很少，因此在解决这些问题时历史学家在很大 
程度上要依靠自己的想象和才智。 
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8.5 —个或更多的个案资料缺失 


#先让我们看类型（2)，其中缺失某 S 完整个案的资料。在: 

® 这种情况下，我们得到的是一个个案样本而不是一个概 
率样本（除非在极示可能的情况 下〉， 在一个随机抽样过程后- 
这瞾个案仍然幸存下来。由于有了样本资料，我们就可以利用 
它们来估计整个资料集的特征，正像如果整个资料集得以幸 
存下来我们将会估计的那样^然而，由于得到的不 S 概率样 
本，我们仍然无法确定这种估计准确到什么程度。当然，这并 
没有使这种估计变得毫无价值 I 它们自身可能是极为重要的 
结果。例如，在商业史中一个常见的特征就是所保存下来的 
信息大部分来自于那些兴旺发迖和成功的商行；破了产的商 
行很少保存它们的圮录。因而一个研究商业史的历史学家常 
面临着一些个案（商行）的资料缺失的情况。虽然这样，他所 
拥有的这些信息仍可 m 告知他许多有关成功商行的运转方式 
的情况，虽然从统计学上看这个信息不能用来估计谊一行业 
中其他商行的行为，但它可能仍然是重要的。 

在商业史的这个例子中，用一个简单随机样本的标准来 ■ 
评价，很清楚样本有两方面的欠缺。第一，个案的选择不是 
用随机手段做 出的； 第二，很明显样本具有倾向性，因为只有 
成功商行的信息才被保存下来3换句话说，这种样本不具有 
代表性。这产生了这样的问题，即一个似乎没有任何倾向性 
的样本，为了分析的目的，是否应被当作如同一个随机样本 
来对待。它将能使人们对从中得出的结果的准确性怍出陈述， 
它还能为运用那些如同是从没有缺失资料的资料集中所得壯 
、 188 、 



的结杲这一作法提供合理性。例如，斯通教授在对1 6 世纪 
英国贵族的研究中提出一个样本，它是由买卖双方任何一方 
姓名开头宇母为 S 而被选中的采邑所组成的，并被看作如同 
是一个随机样本。他问道 ，有什 么理由料想在这个事例中以 
宇母 S 进行选择将会得到一个与真正的随机样本的结果大不 
相同的结 果呢？ ……我有意避免使用宇母 J 、0 和 M ， 因为 
它们可能在威尔士人、爱尔兰人和苏格兰人中产生不相称的 
数宇。而在所有英国姓名中10%以上是由宇母 S 开头，而且 
我看不出这个特定组会有什么独特之处。"① 

斯通教授也清楚，按照严格的统计学理论这一方法并不 
能构成一个随机样本的抽取，而且同样从理论上也不能证明 
把一个非随机样本看作如同是一个随机样本是正当的，即使 
看来没有什么理由认为这一样本为何丝毫不具有代表性。然 
而在实践中，历史学家按照斯通教授所用的方法从事自己的 
研究似乎是正当的，只要，第一，他们知道自己在做什么，第 
二，他们清楚地向读者讲明他们在做什么。这一见解所产生 
的主要困难在于不同历史调查结采之间的可比性问题；例如， 
若我们像斯通那样用一神非随机方法对1535年英国采邑选择 
样本，然后再以另一种菲随机方法对若干年后的采邑名单进 
行选择。在每一时期它们在所有权之间的不闶是归因于真 JH 
的变化还是归因于两种非随机抽样方法之间的不 同呢？ 对此 
人们只能说不知道，并且又为英国土地所有权变化的所有其 
它潜在原因之上増加了这个新的可能性。但是由于历史学家 


① 斯通： a 劳伦斯 * 斯通和采邑 ：反驳 "（K Skme, ‘Lamn ⑼ Stone 
tod tte niAnoJf3 ： rejoinder ’ 乂载《经济史评论、第 24 卷 （ 1971 ) ，第 页。 
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和读者都意识到了这一切，很难认为这一方法完全是错 误的； 
我们将得到一些知识，纵然当更多的研究完成以后它必须被 
修正& 

讲清楚已经偏离了严格的统计学方法的重荽性怎么强调 
也不为过分。这种偏离在历史学研究中非常普遍。另一个例 
子是，人们曾做过一系列尝试，将从保险记录中发现的几个工 
厂的平均值乘以已知曾经存在过的工厂总数目，以估计工业 
革命时期棉纺厂的总值。严格来讲，这一过程包含了这样的 
假设，即那些具有已知值的工厂构成了一个所有工厂的随机 
样本，这不可能是真实的。虽然如此，只要清楚说明这点，只 
要不在这结论上作出过多的推论，这一方法是无可非议的 & 
在实施这类方法而没有认识到或讲明所作出的是什么样的假 
设，这才是不正当的 p 

因此，我们对在其中个案资料缺失的类型(2> 的讨论的结 
龙必 须是，由于缺少随机抽样，尽管严格说来这种情形常常近 
于无望，但在一些特殊的事例中运用违反统计学原理的方法 
也有可能得出近似的 答案。 对历史学家来说，首要的是更多 
地了解这些方法所必然带来的后果。 

S .6 —个或更多的变置资料缺失 

个或更多变量的资料完全漏失的情形，历史学家是十 
#分熟悉的。例如，研究商业史的学者常对制造活动了解 
狠多，但不知道所制造的离品的总值 o 政治史学家对他们所 
研究的政治家的经济状况通常知之甚少或完全不知，尽管他 
们可能了解其职业和家庭出身这类细节^在大多数事例中# . 
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一个变量的资料完全缺少是无法钋救的。不存在据以估计变 
量值的信息，更说不上评价这一估计的准确性了。面对这种 
情况，历史学家只能寻找更多的材料，或者把他的研究限制在 
没有这些缺失资料的帮助也能回答的问题上9 

当历史学家可以确定在他所拥有的变量值之间存在着某 
种逻辑的或统计学上的联系，从而他可以估计缺失的变量时 
值时，这种绝望的情况会出现例外 o 在一个琐细的事例中，一 
个经济史学家知道生产一件制成品的成本及其出售价格，但 
不直接知道所得利润，可以运用利润等于价格减成本这一知 
识笨精确地估计玦失变量的值。在这种情况下，变量之间的 
关系是直截了当的，没有人会对这一过程提出反对意见。 

若估计和被估计的变量之间的关系不是从一个简单的算 
术关系 5 而是从一个理论模型或从另一个历史时期或地点的 
证据中导出时，会发生更多的困难。运用这类方法试图估计 
—个缺失资科的值。尤其是被称为“新经济史”或“计量经济 
史”的显著标志一计量经济学是经济学中的这一分支，它运 
用统计学和数学的方法根据证据去检验经济理论 P 然而这种 
方法有其更广泛的应用，而“新”经济史学家主要在阐明这一 
常有意无意地为其他历史学家所使用的方法。例如，政治史 
学家常用诸如"自由派' “保守派”或“法西斯主 义者” 这类描 
述来称呼人，虽则并不存在具有这些名称的政党，而且这些人 
本身也不会承认这些描述。在使用这些描述时，历史学家实 
质上所做的是表明他拥有对若干变量的信息，诸如对某些议 
案的态度，政治辩论中的行力，等等。他感到可以用这个信息 
使他能估计我们称之为“所研究的个人的政治信仰"这种缺兔 
夜董的值，并且，在称某人为 w 自由派”时，历史学家正在对一 
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+缺失变量的值作出估计。 - 

为了说明所必须使用的方法的逻辑和一些可能遇到的危 
险，我们可以看两个例子，一个来自于政治史而另一个来自于 
经济史。第一个例子为艾德洛特教授为19世纪40年代的英 
国各插议会建立一系列政洽态度所作的努力。通过对大量不 
同议案的表决的研究，艾德洛特教授认为他能够建立一个议 
案的尺度表，并可以根据他们对每一个议案的态度沿这一尺 
度表将议员分成等级。对所有议案投赞成票的议员被列在尺 
度表的一端，投反对票的列在另一端，然后艾德洛特教授就可 
以进而试图识别在政党忠诚、背景或意识形态中是什么压力 
把议员置于兄度表的特定点上。实质上，他正试图从现存资 
料的一组变量构成的政洽行为中确定政治态度这个缺失的变 
量。对这一做法可能作许多批评，例如人们或许要问，艾德洛 
特是否完全排除了政党压力或政党恩惠的影响，当时的政治 
家是否把对一些特定议案的投票看得很重要或无关紧要。尽 
管有这些困难，艾德洛特的工作大大增加了我们对19世纪40 
年代的认识，而且在他在所有工作中都审慎地说明所用的方 
法，从而使批评家得以讨论他的方法。 

估计方法在经济史中应用得最为明 ffi 。 我们以迪恩女士 
和科尔教授有关英国经济增长，尤其是他们试图估计18世纪 
英国的谷物产量的工作为例。尽管有谷物进口和出口的数字 
对得，但没有任何国内粮食总产量的数字。迪恩和科尔的方法 
是，在1766年对每人每年所吃的谷物量作出估计，再乘以每十 
年期第一年的估算人口数，然后加上出口的粮食量，减去进 
口的粮食量，并把需要生产出来作为种子的那部分算进去，就 
得到谷物总产童的估计数 a 迪恩和科尔非常清楚地说 明在这 
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—过程中可能出现的误差，及因而在以后的结果中的误差。恤 
们的方法渉及以下假设： 

(1) 当时对人口数目的估计是正确的。 

(2) 对 1766 年谷物的乎均消费的估计是正确的。 

<3)在18世纪里粮食的平均消费没有变化，尽管平均收 
入和粮食价格发生了变化。 

(4> 准确地估计了 1766年的粮食留存（即所需种子的数 
量），而且在整个18世纪期间这一比例没有变化。 

所有这些假设为迪恩和科尔所卫护，并且是合理的，至少当 
计算的目的是要得出对谷物产量这个缺先变量的估计时是如 
,这一估计是大致准确而不是非常精确。 © 

计量经济史中常用的填补缺失资料的另一种可能的方法 
是运用回归估计。例如，假设我们研究1907年的商船，并发现 
有关一艘商船的资料不完整；船员人数未被记录。如果我们 
S 经从一个事先适当设计的样本得到了有关商船的资料（如 
上一章所用的 资料〉 ，而且如果我们确信从回归估计所得的结 
果，那么可以运用回归公式来帮助我们估计缺先的船员人数 & 
如果我们知道这艘船的吨位为 1600 吨，可以用 1600 替换回 
归公式 5.4481 + O.OOS2X 中的 X, 并计算 

F = 5.4481 + 0.0082(1600) ^18.5681 

将小数点后面的数字四舍五入，我们就能够说根据现有资料 


①参见迪思和而. A . 料尔， 16 S 8 —1959年英国经济増长 : Deona 
and W . A . Cole , British Economic Growth 16 S 8 一 1959) t 剑檢： 1964 年，第 
62—68页。对这些假设的讨论见 N . P . IL 克雷夫斯，18世纪的英国经济增长 • 
(H. F, R t Crafts, i English economic growth In the ejghteentli eentiiiT’）, 

載*经济史评论 h 第卷 (1976 年 5 月)。 
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我们对这艘船的船员人数的最佳估计是它有 19 名水手。当然， 
同祥的资料也可以通过观察图 7.1 中所标绘的回归线更迅速 
地得到，郎使它的精确性要稍微低一些。 

从这些例子可以看出，对缺失变量值进行估计的可能性 
取决于将其他变量与漏缺变董联系起来的理论根据，并取决 
于现存资料的可信程度。再则，为构建他的论据，历史学家必 
须考虑对缺失变董进行的特定估计的重要性；如果这一估计 
对他的解释具有决定意义，他会希望对它们更可信赖而不是 
无足轻重^因此，在任何研究中，历史学家必须自己判断能否 
从事这类估计，而他的读者则必颏判断他是否正确；为了后一 
个目的，历史学家必须清楚地说明作出估计的根据。 

S .7 —个或更多个案中的一个或更多变霣的资料缺 
失，而不是整个个案或变置的资料缺失 


两节讨论的方法也适用亍第3种也是最常见的缺失资料 
的类型——缺失零散的资料，也就是可以用这一变董的 
其他值或其他个案来估计，或者运用这一个案中的其他变量 
值来估计缺失值。因此，对亍资料矩阵而言，既可以垂直地(根 
据变董 > 也可以水平地（根据 个案〉 痄出估计，或者同时使用这 
两种方法作为检验。运用两种方法分别得到的两种估片之间 
的矛盾将启发估计方法可以改进和估计可以词和的手段。 

对这最后一种类型来说，克服缺失资料这一圉难的可能 
方法的范围比前2种类型较为广泛，但仍遭到 M 样的反对 a 第 
一，从其他个案在矩阵的垂直方面得到种种估计时，仍无法假 
设信息存在的这些个案可为矩阵中的所有个案构成一个随机 



样本，因而估计可能具有倾向性的危险依然很强。第二 s 同一 
个案中的其他变量在矩阵的水平方面进行估计的可能性仍旧 
取决于对变量之间的关系所作的种种假定。应再一次指出，对 
估计方法的任何运用应尽可能清楚地加以说明，以便使这一 
方法能得到充分的批评和讨论0 




计算器、计算机 
士历史资料 


f 书所阐明的所有统计学方法都可以用计算器来完成^况 
+且，这类计算器的价格，以及因而它们所体现的统计能力 
的价格，近年来迅速下降，而且很可能继续下降。同时，由于 
计算机的广泛应用，可用于处理和分析历史资料的大得多的 
统计能力已可资利用，现在或不远的将来，许多国家里的学 
校、学院和大学都将拥有计算机。祓称为“微处理机”革命的 
冲击是如此之猛烈，确实已难于在计算器和计算机之 间作出 
区分，因为可编程计算器在性能和价格上可与微型和小型计 
算机相竞争,而从历史学家的许多实际应用上看，后者与大学 
里的大型计算机在性能方面不相上下。与这些计算 " 硬件”的 
发展相平行的是在“软件”中所取得的相似进展，各种程序和 
程序集使计算器和计算机可以更有效地祓便用， 

历史学家无论是在学校，大学甚或在家中，由于可以通 
过电视或电话使用计算机，因此面临着多得不可胜数的辅助 
手段来计算和分析他的紂料。本章的目的是解释一些计算名 
词，消除它们的一些神秘，使历史学家能对为他解决历史冋題 
提供最佳帮助的设备和方法作出明智的选择 I 
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9.1 设备的选择，电子计算器 

p 致来讲，本书第一到第五章所描述的任何统计运算旣可 
X 以用手工来完成（虽然这样做可能费时和麻烦），也可以 
使用最简单的袖珍计算器来完成。为了进行第六章中的分析， 
可按这一章中若干表格所表述的方式便用一个简单的计算 
器①，但是许多稍微复杂一些的计算器，特别是那些称为“财 
务计算器”的，只要按一个键就能计算趋势直线^直接计算增 
长率，要求计算器能够计算一个数的 n 次方拫，如第六章（2> 
增长率例子中的 

s °/ ^ 

V ^7 

虽然任何能够计算对数的简单的计算器（大多都能）都可以按 
该节所描述的方式加以使用。任何能够计算趋势直线的计算 
器也可以计算 n 次方根，因而使计算第六章表6所描述的对 
数一 线性趋势很力方便。第七章叙述的主要方法，即简单的 
线性回归和相关分析，可以从许多力科学和统计分析之用而 
出售的计算器中求得，而第八章所描述的对样本资料的估计 
方法，可以用与卡方和正态分布的表格有关的计算器计算。只 
有当人们想要甚至不用这些表格进行计算时，才有必要去购 
买更萵级的计算器，这些计算器能够计算许多由于太复杂而 
没有在龙书讲到的统计分析。 

因此历史学家似乎只需决定他要做什么，就可以看出他 


①指那种只有加、减、乘、除、累加#12种简单功能的计痒器 u ——译者 
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需要购买多么复杂的计算器。可是未必尽然，因为小型计算 
器有一个对历史资料的分析很重要的缺点（假如历史学家主 
要是想用计算器来帮助阅读，检査和计算书本和论文所提供 
的资料，或许问题不那么严重 h 问题在于许多，如果不是全 
部,历史问题只能通过对相当大的资料集以及对许爹各自拥 
有若干变量的个案的分析才能解决。举个最简单的例子，似乎 
有必要计算表 3*1 所展示的有关 10S6 年埃塞克斯郡牧猪的乎 
均数和标准差。就许多计算器而言，这类计算可以只要通过输 
入里特尔庄园的牧猪数1200,再按下标有2^的键，并对表中 
的每一个数字重复这些运算。这样标有 T 和汉的键就将给 
出结果。这看起来似乎筒单，但值得指出的是,方才描述的这 
些运算需按键 L 78 次（每个数字一次），2^49次，而 Z 和汉各1 
次。在这么多次按键中，任何一个错误必须立即注意到，以惙 
玫正； 否则，答案将是错误的，但是检验结果的唯一办法是重 
新按键178次。像计算牧猪数目与埃塞克斯郡庄园的某些其他 
特征之间的相关关系这类更复杂的运算，可能会要求按键455 
次，虽则确切的按键次数将取决于计算器的设计 a 

如上述这个简单的例子所示，大多数计算器的主要缺点 
是输入资料的过程繁琐，而且没有所输入资料的永久性记录 
可资检查是否已造成错误。在许多资料规模较小的数学例子 
中这还无关紧要，但对于像历史这样与“资料有密切关系”的课 
题，而非 " 咀嚼数宇％亦即对许多小量资料进行复杂计算时，它 
就成为一个严重的问题了。这个问题可以克服，但克服的代价 
昂贵 I 虽然附着于计算器的打印机可以买到，但通常它们的价 
格是计算器本身的几倍，并使用特殊而又昂贵的纸张，这样訧 
降低了小型计算器所拥有的便于携带和容易使用的优势。克 
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脤这一缺点还有其他方法，但由于需将同一资料分析若干次 
而颇为麻烦。一些髙级的计算器允许资料像 u 程序"一样 (若干 
组处理资料的指示）被记录在磁带上以备后用。但是这些方法 
没有一个价廉，没有一个便于使用。 


9.2 设备的选择:计算机 

$于这些原因，历史学家在分析任何数量的资料时应考虑 
® 采用计算机是否明智。这取决于使用计算机是否容易， 
取决于资料是否需要储存，取决于是否需要重复或复杂的计 
算。由于使用计算机的情况及费用在不同的教育机构、不同 
地区和不同国家内的差别甚大，对使用计算机这个问題无法 
一概而论，所可说的是使用计算机已变得日益容易和价廉 
了。 

为了懂得为什么储存资料和计箅性质是重要的，有必要 
对组成一台电子计算机的部件略知一二。一台计算机主要由 
3部分 构成： 执行算术运算的中央处 理机； 当中央处理机执行 
指示去处理材料并产生结果时，存储资料、结果和指示集（程 
序）的存储器；以及将资料传送入存储器并打印出结果的输 
入一输 出设备。历史学家只需知道中央处理机的存在就行了 J 
只有当他打算应用一台微型计算机或小型计算机，或用复杂 
的分析程序去处理一个巨大的资料集时，存储器才会对他有 
影响 a 然而任何使用计算机的人都会受到输入一输出设备及 
所能应用的程序类型的影响> 后者将在下面 U ) 节里讨论。 

输入设备的效用是将资料变成一种可以被计算机处理的 
形式，计算机把信息作为一系列电荷存储起来。输出设备所做 
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的恰好相反 s 使我们能知道处理的结果,输入计算机最常见的 
方法是通过把它们打成穿孔卡片 〈如图 9. 1所示)使资料和程 
序成为“机器可读"的形式。信息通过一些小矩形孔或合并的 
孔表述在这类卡片上，这些矩形孔被一台附属于计算机的读 
卡机阅读并翻译成数目、字母或标点符号^在图 9.1 中，所记 
录的信息是表 4.1 中所汞的第一艘商船的详细情况。记录的第 
一个数是1697,这个数字的第一位数1由第1列第1行所穿的 
孔表示，第二位数6由第6行第2列的穿孔表示，第三位数在第9 
行第3列，第四位数在第7行第4列。所以，卡的每一列代表一 
个字符 ，而字 符按穿孔所在的行来区分。每艘船有一张单独的 
卡片，而且每一个变量在每一张卡片相同的列上被穿孔。由于 
在卡上只印有10行，所以我们只能表眾10个字符。为了克 M 
这一限制，可以用同一列中的两个或更多的穿孔表示某些宇 
符。例如，名称 “FLOUD 001”在卡的右边被穿孔，作为一个 
标识字母 F 由第6行的一个穿孔以及卡最上边的一行即逋常 
被称为“ +穿孔”位置上的一个穿孔所表眾 & 字母 L 由第3行 
中的一个穿孔以及“ - 穿孔”位置即“ +穿孔行”和 “O ”行之间 
一行中的一个穿孔表示。通过使用+的和-的穿孔行，连同 
卡上的其他行，所有字母，所有数宇和许多标点符号都可以由 
独特的合并穿孔表示。因而坷以把字母和数宇的宇符穿孔而 
不致产生任何混乱 a 在卡上被穿孔的同时，卡最上方的宇符 
也由卡片穿孔机打出，这样就使得操作员可以检査他所穿的 
宇符是否正确。 

穿孔卡片的应用便于许多目的，它们很易被改正和复制， 
而且所包含的信息在卡片上一目了然。然而当所霜卡数较 
大，如记录大量资料时，这些优点则为卡片本身的分量和易 
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遭损坏所超过。由于这个原因，长期以来穿孔卡通常只用于 
资料处理的初级阶段；它们只由计算机阅读一次，然后计算机 
将信息存储在另一种存储介质上——通常是磁带或磁盘^如 
同磁带录音机中的磁带那样，信息作为电荷被存储在磁带和 
磁盘上。很自然的一种发展是将资料直接转换到磁带或磁盘 
上，通过在一台与计算机相连的、很像电动打宇机的设备一 
终端机上打字就可以做到这一点，进一步的发展是用终端机 
将资料记录在磁带盒上，终端机的形状和重量与电子打字机 
和似，但它可以将所有输入的，打在纸上或磁带上的东西记录 
在磁带盒上。这类终端机在各处都可方便地使用，而且曰后 
磁带盒可以拿来为计算机阅读。 

计算龊件的这些发展对历史学家来说具有极为重要的意 
义。这是因为应用于历史学的研究方法和统计方法，与历史 
资料的收集和分析有密切的关系；使这类工作变得更容易和 
更省钱的任何事物，对历史学家都是重要的。直到不夂以前， 
历史学家还需要去一个存有历史记录的机构或其他能提供这 
类记录的地方，吃力地复印出他所想要使用的资料，再将这 
—复本交给卡片穿孔机的操作员，然后把穿孔卡片喂入计算 
机。现在，坷以把终端机送到存有历史记录的机构里，把所有 
资料都打在磁带盒或小型磁盘上，以后再输入计算机里，如有 
必要，甚至可以经由一条电话线传送到计算机上。 

同样，输出硬件设备上的发展也对历史学家大有帮助。他 
不仅可以得到打印出来的结果，而且现在还可以运用计算机 
绘制的地图和图形来显示他的 结果， 并且在缩微胶卷和缩微 
胶片上永夂保存这一结果。他可以在一个视频盛示装置（这一 
岽置简称 VDU , —般由一台电视机荧光屏和一个与之相连的 
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键盘组成)上显示资料，并 可以® 过键盘修改资料或向计算杌 
发出指示。他还可以从资料中抽选样本，将它们储存在磁带或 
磁盘上以备将来分析之用，同时计算机复制多份副本的能力 
使他的资料免遭意外损害或破坏。 

各种输入一输出设备因而种类很多，而新的设备叉层出 
不穷。由于计算硬件的进一步发展，它们的使用也变得更为 
容易。直到不久以前，计算机与输入一输出设备都紧密置于 
—处，通常放在大学或学院的计算机中心里。穿孔卡片要送 
到计算机中心，或在那里 制作; 然后再将它们嘍入计算机；其 
结果就近被打印出来，常经过长时间耽搁再由研究人员收集 
起来。因此，计算机的使用者，差不多在一切场合，都受到就在 
他身边的计算机的限制^他不能便利地应用适合于他的研究 
目的，但叉不是为他必领使用的特定的计算机系统设计的计 
算机程序，而且将穿孔卡片或甚至織带传送到远方的计算机 
里非常麻烦。 

由于被称为“计算机网络 y 的发许多上述的困难己经 
消失，或将毪今后几年里消失。在一个特定的机构里，输入 
—输出设备在装置上与计算机相互分离的情况目前已十分普 
遍，这些输入一输出设备靠近使用舂并经由一条电话线与计 
算机相联系。在太学和学院之外，现在许多学校经由电话线 
与一台中心计算机相联系；它们可以传送或接收资料和结 
果，并能在中心计算机里的磁带和磁盘上存储信息。最后，电 
话线还将一个特定国家之内的或两个国家之间的计算机本身 
联系起来。这使得计算可以在最有效地做这类工诈的地方进 
行，这些地方常常远离使用者。例如，专门绘制图表或制作縯 
微胶片的输入 一输出 设备可以安置在少数几个专门的计算 
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机里，并有时为分散的使用者使用因为电子传递的速度极 
袂，坐在终端机前的使用者错认为他在单独地使用着计算机, 
而事实上几十或几百个使用者可能正在自己的办公室、学校、 
车间，甚至在家里同样在使用 # 

9.3 为计算机准备历史资料 



到不夂以前，许多人仍然认力计算机最大的好处就在于 
它处理数字的能力。这并不是因为计算机还不能存储和 


处理文宇和宇母形式的枋料，而是因为计算机在早期的明盈 


应用主要在数字处理的领域1因此，在设计计算机、它们的输 
入_输出设备，以及向计算机发出指眾集的程序语言时，大部 


努力都投入提高数宇处理的速度和效率上去了^虽然计算机 
一直能够处理宇母形式的而不仅是数宇形式的材料，这项工 
作却常常十分难办，并在计算中要求比太多数历史学家所想 
要具备的更多的专门知识。 

然而，在历史研究中应用计算机的潜力与上述这些缺点 


同样明显，因此许多历史学家和其他社会科学家努力使用计 


算机。使文字形式的历史材料可用于为处理数字而设计的种 
神方法的最主要的途径，是通过称为“编码”的过程把文字转 
换成数字。例如，让我们假设历史学家想要研究 is — 19世纪 
军队召募新兵的情况，并特别对应募者的职业和出生地感兴 
趣。在原始的征兵记录中，详细情况按若干种方式记录，表 
9.1 盈示的是一个英国征兵记录的例子。为了将这类资料转 
换成数字形式，每一个职业和出生地都必须被指定一个数字， 
这个数字将被记录在纸上和穿孔卡片上以输入计算机；这些 
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表 H 18 世纪 GO 年代英国军队的征兵记录： 1755 — 1 S 31 年 
第三炮兵营记录簿 



1766,11,17 B . 布思 26 S 5 7.5 锯木工 芝彻斯特 

1766.1.1,19 G , 恵丁 27 2 5 S . 5打马蹄铁工北安普敦 

1766. 11 .26 : E * 布萊克22 9 5 S .5 面包师 特烕克斯布里 


连续的步骤如图 9.2 和图 9-3 所示。 

然而，马上就产生了如何指定这些数字的问题。一种极 
端的方法是为每一个职业和出生地给定一个独特的数字，只 
有再一次碰到这一职业或出生地时这个数宇才会重新出现。 
例如。所有修车人可编码为7,而在埃塞克斯郡的芝宾盎格一 
地总以215出现。然而，以这种方式指定数字是极为费力的，因 
为可能出现的职业和出生地太多，每一项都可能出现在记录 
中因而需要被指定一个 数字； 甚至在1841年英国人口普查中 
有案可査的职业就超过900个，而可能的出生地的数目还要大 
得多。要记住这样一串名称和数宇是不可能的，因此像图 9. 2 
那样记录资料的方法既费时又容易出错。况且其结果将是一 
长列数字而不是一长列职业，对枋料的历史分析将无法进行。 

为了克服这些困难，许多准备将历史树料转换成数字形 
式的编码方案采取了把紂料的逻辑分类体现在编码过程中的 
迸一步的办法。这样做的另一个好处是可以把编码方案的逻 
辑甩于对材料的分析^表 9. 2显示出一些可能的编码方案。方 
案 A 是只按照在资料中发现的顺序为各种职业指定数字的结 
果，而方案 B 则是按字母的顺序排列职业。进一步的逻辑分 
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类被用于方案 C 和 D; 首先，方案 C 根据涉及不同种类的原料 
来区别不同的职业。这样，所有与木材有关的职业被给予01 
一09之间的数字，所有涉及服装的职业被给予 21—29 之间的 
数字，如此等等。从41一49的数字是余下的种类，这些职业不 


直接涉及原料的加工。对比之下，方案 D 则按照它钔所属的 
行业对职业进行分类。这样金属和造船业得到01—09之间的 
数字，建筑业的数字为29,而其他制造行业被给予31—39 
之间的数宇。以同样的型式还可以想出其他的逻辑方案。图 
9*2 和图 9*3 所示为按方案 D 编码的资料。 

进一步的方法是像方案 C 和 D 那样将职业分成组，但是 
对于落入每一组中的所有职业只指定一个独特的数字;例如， 
所有建筑行业的职业的号码都是 h 所有列入其他制造行业的 
职业号码都是3,等等。正如方案 E 所示，这样一种按类分组 
易于记忆，便于编码并且不大可能发生转换的错误。 

因此，编制合适的编码方案须用很大的智巧I正确设计的 
编码方案使历史学家受益非浅。①但是，如我们将在下面所 
看到的那样，如果在把历史记录转换成机器可读的计算机文 
件的过程中过早地进行编码，这亦能是有害的。 

编码可按两种方式之一进行。第一种是按手工进行，即 
当历史学家在阅读他的原始记录并将此记录抄录在如图 9. 2 
的通常被称为“编码表格 "的纸 上，一个穿孔机操作员可以据 
此工作。这样做的一个好处是，由于数字编码一般要比原始 - 


①参觅 J5. A. 里格利编，十九世纪的社会 * 中 W,A. M 姆斯特朗_対有关 
职的信息的应用 * 一章 （ "W\ I Arms trouts Chaptex * The u 卵 of ittforma- 
tion about occupation a’ Jn E. A. Wri^Iey (ed), N inei&enth-CenliUtTy 
Society}, 剑挢 ：剑挢 大学出扳社， 1072 年 o 
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信息所占的空间少，抄彔和穿孔的量也要比如果记彔以宇母 
形式抄彔小。这样做可能使转换过程花费较少，对于所有，例 
如，与1名士兵有关的信息必须记彔在1张穿孔卡片上这种 
精况也易于处理 5 

然而，这种编码方法也伴有相当严重的困难和代价，通常 
称为“预先编码”，因为它在资料成为一种机器可读形式之前 
已经编制了。在比表 9. 2所示要长得多的一览表中寻找合适的 
数字编码所产生的困难坷能要超过转换费用在表面上的节 
省；犯错误的可能性也很大。然面最重要的是，在转换过程中 
编码方案和所指定的编码数都是固定的，一旦资料按一特定 
方案编码以后，要使之分解并恢复原状，或者在另一种合乎逻 
辑的基础上重新整理资料使之适合一种新的分析方法，都是 
非常麻烦的。在极端而论，像方案 E 这样的分组编码方案要 
做到这一点是不可能的，因为原始材料中的细节已经不可挽 
回地丢失了。 

由于上述原因，历史学家正愈来愈多地，并且明智地利用 
第二种编码方法。现在计算旣适宜于数字，也适宜于文宇，并 
且输入文字形式的信息像输 入数宇 形式的信息一样容易。这 
使历史学家没有必要在穿孔之前对他的资料进行编码；他只 
需以文字形式 （如 果有必要，完全按照原始历史文件的 形式〉 
抄录资料并加以穿孔。如图 9. 4所示，这里资料被穿孔并在每 
—项信息之间増加了一个/号，它使计算机程序可以区分有关 
身高和有关职业的信息。一旦资料成为一种机器可读的形式， 
那么编写一个能阅读资料，并将其按所要求的任何合乎逻辑 
的编码方案进行编码的计算机程序并不困难;况且，由于原始 
信息被保存起来了，这神由计算机完成的编码可以毫不费力 
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地重复无数次。如果信息被打印出来或者显示在一台终壻机 
上，它们很容易被理解，各种错误也会很快被发现 I 然后使用 
在大多数计算系统上都具有的校订命令对此加以改正。 

资料成为机器可读形式以后再对其迸行编码的另一项好 
处，通过比较图 9. 3 和图 9. 4 就可以看出来 9 在图 9. 3 中，某一 
称类的信息，例如职业信息，在每一张卡片的相闻位置被穿 
孔， 所编制的计算机程序将所有处于这一位置的编码当作职 
业编码来 译释； 这样做浪费空间，因为卡上一定数量的列必须 
为可能并不使用的编码留出之，这祥就容易将编码置于错误 
的列上。这种被称为固定格式”输入在图9,4中被没有上述 
缺点的“自由格式 3 输入所代薺> 如果以后资料需要成为一神 
固定的格式，可专门编制程序将它们转换成这种形式。 

因此，历史学家能够通过谨慎地使用自由格式输入和像 
图94中/这类的符号，在将材料输入计算机的整个过程中保 
持原有历史文件的特征和形状。当输入完成后，就可以进行编 
码，并被视为历史分析中的一个明确的步骤。 

94运用计算机分析历史资料 

#料一旦被转换或机器可读的形式而且如有必要被编码之 
W 后，分析就可以幵始了，从本书前面儿章所描述的重整、 
分类和描述开始，并通过本书后面儿章所讨论的和未涉及的 
较复杂的分析方法继续方析。所有这些运算工作，无论简单 
成复杂都必须作为由历史学家向计算机发出的系列指示的结 
杲来进 行:“ 计箅机分析”这个术语仅是 a 使用计算机进行分析 v 
的简称，选择使用哪种分析方法仍然完全由历史学家来决定。 
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计算机所能遵循的系列指示就是“裎序"。编出计算机坷 
以立即执行的裎序是可能的，但这是一项极为枯燥费事的工 
作，因为程序规定了所需采取的每一步的大量详尽的细节。这 
正像我们不去告诉某人穿过街道，而是向他发出要达到这一 
目的所需的每一个肌肉活动的详细指示。由于所要求的这些 
活动的数量十分巨大，并多次重复，那么很清楚只要能讲“穿过 
街道”并知道这句话之后将会有一系列活 动跟上 去就可以了。 
与此相同，能编出一个其中包含找出一个数字的向量之和的 
裎序就可以了，而毋需确切地指定怎样做到这一点的指示 & 力 
达到这一目的，程序用所谓“高级语言”编写，然后它们由一 
种“编译程序”翻译成可由计算机一步步执行的非常详细的系 
列指示。这种语言中最著名的是主要为科学和统计而设计的 
FORTRAN ①和 ALGOL ②，以及为商业用的 COBOL 。 ⑧然而 

还有许多这类高级语言，其中不少专用于某种特定的计算机， 
或者甚至特定的计算机中心,因此历史学家必须寻求关于既 
可得到而又最能满足他的需要的语言的建议。 

以大多数高级语言都可编写能眵运算本书所讲过的任何 
描述性或分析性统计方法的程序。然而，历史学家打算这样 
做无疑是徒费清力为制作一个列联表或得出一组回归结果， 
即使运用高级语言写出的程序也既复杂又冗长 i 但一个裎序 
(或许加以细微的 修改〉 便能一再应用于不同的资料集，因此， 
被称为“裎序包”的各种程序集为人们编出用以完成除了最专 


① FOIIT11AK (formula transIaWon) ， 公式翊译程序语言 。一 ^译者 

② ALGOL (algOTit tonic l&Tiguage) 3 算法语言。^~—译老 

③ COISO L (com mon business oriented l&nguage) f 面向商:的通用语 
言。 --- 译者 
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门的分析方法之外的所有分析方法。使用一个程序包的历史 
学家只需确定他所想要分祈的资料的真正性质，然后发出“列 
联表”或“根 -X 求 F 的回归”等指承。这些指示将由程序包 
翻译成以高^语言写成的各神程序，再由编译程序翻译成由 
计算机执行的各种机器指示。 

例如，第七章所描述的表4,1中商船资料的相关和回归分 
析，就可以通过使用称为 SPSS (社会科学用统计程序包〉的程 
序包来完成它是应用得最广的统计程序包，大多数大学的 
计算机上都有这种程序包可用。还有许多其它类似的程序包， 
—些是通用性的，另一些则是为特定类型的分析设计的，如 
TSP (时间数列程 序包） 或者 COCOA (语词索引和文本处理 
程序包）；再重申一遍，有关恰当使用程序包的问题可以向进 
行分析工作的计算机中心咨询。 

一个用亍 SPSS 的系列指示包括4部分。第一部分称为 
JCL (作业控制语言），它并不是 SPSS 的一部分，只是告知所 
使用的特定计算机将使用 SPSS »具体指示因计算机而异。其 
它3部分对任何 SPSS _ tt 作业即调入计算机的一组程序和 
资料)都是常用的。其一为控制资料输入和描述资料的系列指 
活，其二为调用特定类型的统计分析的系列指汞，其三为需要 
分析的资科集。整个指令集如图 9. 5所沄，每一行指令都有一 
条注释，而作业的计算结果，包栝 SPSS 的控制卡片和相关与 
回归分析的结果见本章末尾的附录 & 

SPSS 和类似程序包使得历史学家无需自己编写统计分 
析程序；这不仅因为自己编写程序非常费时，而且因为在效率 
和甚至准确性方而非专业人员编写的程序肯定要比若干组编 
写过程序的专业@序编制员所得出的结果差得多*历史学家 
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露要学会怎样以控制卡片和资料的形式向程序包发出指示， 
当然他还需具有足够的统计学知识，以便从程序包中选择适 
当的统计例行程序。然而所有这些工作并不要求历史学家具 
有编写计算机程序的能力。 

然而， JS 史学家有一个需要获得这方而的专门知识的原 
因《_9.5和附录所示的例子所使用的是一个非常简单明了的 
资料集，在开始对它分析之前并不窬要进行任何处理。但当霈 
要使用较复杂的资料集，尤其是文字需按上一节所述方式进 
行处理，编码和分析时，在重整资料调入 SPSS 这类程序包进 
行分析之前就需编写一些用于特殊目的的程序来完成这些工 
作。许多程序包，包括 SPSS , 都能接受比图 9.5 和附录所用 
的复杂得多的资料集，但是目前很少数程序包能处理将教区 
记录簿、人口普查统计表或征兵记录这类历史文件直接转为 
机器可读形式时所产生的复杂情况。因此，历史学家需要获得 
足够的编写程序能力，自己来完成这项工作，或至少充分池了 
解这些问题以便向专业程序编制员作出恰当的指示。然而， 
由于不仅照管分析 而且还 照管在分析之前储存和处理资料的 
新型程序包的发展，规在这种需要正在减小 & 这类程序包被 
称为 “资料 库管理系统' 已经用于历史研究中，也用于许多像 
编制索引、目录分类和;参考书目这些相关领域。与统计程序 
包相结合，它们为历史;研究提供了强有力的帮助。任何打算 
记录和分析大童资料的:历史学家，应考虑应用这类系统，并征 
求有关专家关于它们的 1意见。 

然而，上段中的评述仅适用于历史学家使用计算机的一 
小部分情况（虽然是正在扩大的一小部分 h 在大多数项目中， 
资料集的规模和复杂性不至于产生巨大的困难，而像 SPSS 
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RCF2 2534 SPSS 运行，存盘 
程序控 制上限 ，肘间10,存储限制 20OK 
打印机 3 K 
技术报告隔夜 
遭破坏可恢复 
SPSS(SYSIH 溶 H + ) 

运行名称船员人数对船舶吨位的回归分析 
变量衷船舶吨位船员人数 

输入方法卡片 


输入格式固定 CF5.0/3.0) 


个案数目25 

回归变置=船舶吨位，船员人数/ 
回归=船员人数对船舶吨位 
(2 诫差= 0/ 

统计全邹 

读入输入数据 


作业控制语言 


-0001 
，00也 
-0003 
-0004 
-0006 
-0006 
-0007 作业题目 
-0008 变量丧=本例中 
2 


■0009 输入方法-可 

以是卡片、磁 
带、磁盘 

0010在每一卡片上数 
据的格式和位 

■0011 个龛数目 

-0012、 

} 求回归指示 
-001B J 

■0014 计箅若干可选择 
的统计指示 

■0015 读入以下数据插 


示 


44 

3 

144 

6 

150 

5 

23B 

8 

7B9 

16 

970 

15 

2371 

23 

309 

5 

679 

13 

26 

4 

1272 

19 

3246 

33 

1904 

19 

357 

10 

1080 

16 

1027 

22 

46 

2 

62 

3 

68 

2 

2507 

22 

138 

2 

603 

18 

1601 

21 

3760 

24 

192 

9 

完成 


+ 
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-0016飞 

- 0D17 

—— 001S 

-0019 

-0020 

-0021 

—0022 

-0023 

-^0024 

-0025 

-0026 

- 002Y 

——0028 P 数据 
—~~0029 


-0030 

-0031 

-0032 

-0033 

-0034 

—0035 
——0036 
—0027 
-0033 


0039 

00W 


——0041作业结束指录 
作业控制语言 


图 9.5 —份 SPSS 作业输入 
资料据表4，1。 



这类程序包中的资料管理能力，助以筒单的预备薜序，将能满 
足大多数需要 D 然而重要的是，历史学家应认识到潜在的问 
題，并应在记录他的资料之前解决这些问题。否则，当一种稍 
微不同的记录方法可以会使资料很容易符合分析程序包的种 
种荽求时，为了进行分析可能需要花费大量的时间和精力去 
重新整理资料。所有这些程序包在已出版的手册中都有完整 
的文字说明，这些手册在提供使用这些程序包的任何计算机 
中心里都可以得到，应该早期阅读它们。 

计算为历史学家提供了巨大的机会，因为它使历史学家 
能够按照以前根本不可能的方式去组织，分析和理解历史资 
料。当然，不能保证这种研究的结果将是重要的或有价值的， 
但是很清楚地需要的是，新的资料范围应对历史研究开放^至 
于历史学家怎样菩于运用新的资料以 Bt 他们怎样善于运用;^ 
书所叙述的所有统计方法，只有等做了工作以后才能予以评 
价。 
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I 参考书目 


&于运 用本书所描述的各种方法出版的著作和文章已很 
_多，这里不可能一一^列举，甚至列举其中的大部分也不可 
能。任何参考书目都必须是有选择性的。第一部分列举了一 
些其论题也包括在本书中的著作，虽然它们的侧重点和所举 
例子不同。其中不少著作对概率和抽样理论以及较髙级的统 
计方法的叙述比本书所能作出的要多 得多。 第二部分包括讨 
论计童方法对历史学问题的应用，以及给出在不同的历史研 
究领域和历史时期应用计量方法例子的著作，几乎所有这些 
著作都包含更广泛的参考书目，因此建议本书读者从第二部 
分列举的著作中寻找合乎自己兴趣的其它书籍和文章0 


1. 有关统计学和计■方法的导论性书籍 


K . a D . 艾伦： （< 经济学家使用的统计学》 （ Allen , B . G . D -. 
StcttisticB for 丑 奴〉 ，伦敦 t Hutchinson Univer- 
sity Library, 1966 

H . M . 布拉洛克，《社会统计学》 ( Blalocfc T H _ Unsocial StaU 
isiics )， 纽约 t McGraw-Hill I 960 年， 
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E ■考尔科特： 《:&著性 检验》 ( Caulcott , E. ( SignificanG& 
Tests )， 伦敦 : Routledge & Kegan Paul , 1973 年。 

C M. 多拉尔和 It. X 詹森，《历史学家统计学导论：计量分 
析和历史学研究》 （ Dollar, Cf. M., and Jensen, R. J. t 
Historian^ Guide to Statistics. Quantitative Analysis 
and Historical Research) ， 纽约 t Holt, Rineliart and 
Winston, 1971 年。 

德雷克 ，《历 史资料和社会科学，第一卷 :历史 资料的计量分 
析》 （ Drake,M -,Data and the Social Sciences. 
Vol. 1 ，Tke Quantitative Analysis of Historical Data) 9 
米尔顿凯恩斯 i Open University Press ，1974 年。 

J ， 高 尔滕： 《社会研究的理论和方法 MGaitimg , 3 'Theory and 
Methods of Social Research) ， 伦敦： George Allen and 
Unwin , 1967 年。 

J. 莫罗尼：《从数字得到事实》 (Moroney, M. J s Facts 
/rom ，哈蒙思沃斯： Penguin Books, 1960 年。 

N - H ■尼等人: 《社会 科学用程序包 》(Nie N . H . et al 、Static 
tics Package for the Social Science^ 9 纽约 t McGraw - 
Hill , 1975 年。 

S •西格尔，《行为科学用非参致性统计》 （ Siegel , S , Nonpara- 
metric Statistict for the Behavioural Sciences') , 纽约 , 
McGraw - Hill . 1956 年。 

1 C . A . 约曼斯，《社会科学家的统计学，卷 I ，介绍性统计学 （ 第 
二卷， 应用统计学》 （ Yeomans. K. A ，，Statistics for the 
Social Scientist t Voi. 2 r Introductory Statistics^ Vol, 
II, Applied Statistics') r 哈蒙兹沃斯 ， Penguin Books ， 
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1968 # 

2. 方法论及计置历史研究的文集 

1 L . 安德烈诺编 t « 新经济史=近来有关方法论的论文》 （ An - 
dreano , R , L , ( ed ) # The New Economic history * JRecent 

Papers on 纽约 ,John Wiley , 1 97 0 年。 

W -0 ■艾德洛特 t 《历史学中的计 置化》 （ Aydelotte , W . O .， 
Quantijication in 丑红 fory ) ，马萨诸 塞 t Addison - Wes - 
ley ，1971 年。 

W . O . 文德洛特、 A . a 博格和 R . w * 福格尔编* « 历史中 
计量研究的范围 》 C Ay delotto, W. O,, Bogue, A. Q- and 
Fogel, R. W* (ed). The Dimensions of Quantitating 
Research in Sistery) , 伦敦丨 Oxford University Press ， 

W, 0. 艾德洛特编 t « 议会行为史》 （Aydelotte. W.O., 乂班 sf- 
ory of Parliamentary Behaviour') 9 普林斯頓，新泽西 s 
Princeton University Press, 1977 年。 

B . F . 伯克霍弗， jun •: 《历史分析中的行为方法 》( Berkhofer , 
R . P . jun. p A Behavioral Approach to Historical Ana- 

:於&>，纽约： Free Ptess *1959 年。 

H. M. 布拉洛克，《社会研究中的方法论. 》(Blalock, H. M.， 
Methodology in Social Jfcsearcft > ，纽约 t McGraw-Hill, 
196 S 年。 

A . G . 博格编，《社会和政治史中理论模型的出现》 ( Bogue ， A . 

G- (ed> F Emerging Theoretical Models in Social and 

Political J ? 如贝萍利希尔斯和伦敦 iSagePublica - 
* 226 • 



tion, 1973 年。 
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